Cos’è il data mining?
Il data mining e i suoi vantaggi: questa pagina ripercorre la storia del data mining, i metodi e le tecniche di questo processo e le sfide tecnologiche che presenta. Il tutto supportato da alcuni esempi su come può essere utilizzato in diversi settori verticali dell’industria.

Definizione di data mining
Il data mining (letteralmente dall'inglese “estrazione di dati”) descrive il processo di individuazione di informazioni utili tramite la raccolta e il confronto di dati provenienti da fonti diverse e spesso non collegate. I processi computazionali permettono di estrarre informazioni preziose che possono essere utilizzate dalle aziende per numerose attività, come comprendere meglio i clienti, migliorare l'efficienza e prevedere determinati comportamenti.
In questo modo è possibile identificare schemi e correlazioni all'interno di grandi set di dati, aiutando le aziende a comprendere meglio i clienti, trovare colli di bottiglia nei sistemi di distribuzione e persino prevedere i comportamenti.
Il data mining viene utilizzato anche per rilevare in qualsiasi processo eventuali anomalie che potrebbero produrre errori imprevedibili e che sono individuabili esplorando a fondo un data set. Questo approccio può essere applicato a tantissimi casi d'uso: rilevazione di bug in software, supply chain e processi di produzione, identificazione di abusi dei sistemi o individuazione di malfunzionamenti.
Un secolo di evoluzione
I dati venivano manipolati in questo modo anche prima che i computer diventassero onnipresenti, ma il processo era manuale, lento e richiedeva il lavoro di analisti esperti per raccogliere, interpretare e presentare le informazioni in una forma significativa. Il termine "data mining" è stato coniato negli anni '90 per indicare la pratica precedentemente chiamata “Knowledge Discovery”, che utilizzava database molto basilari rispetto agli standard odierni.
Questa tecnologia è stata utilizzata per la prima volta per estrarre i dati oltre 100 anni fa, quando l'Ufficio del censimento degli Stati Uniti d'America decise di utilizzare schede perforate e un tabulatore per ridurre il tempo necessario per analizzare i risultati del censimento da 10 anni a pochi mesi.
Oggi i software di data mining integrano Intelligenza Artificiale e Machine Learning alla disciplina originale di data science nella statistica, mentre il Cloud computing fornisce maggiore potenza di elaborazione e capacità aggiuntive di storage di dati.
Questi progressi tecnologici hanno portato a una vera e propria esplosione del data mining, grazie alla possibilità di analizzare data set sempre più complessi per trarne informazioni utili. I risultati ottenuti vengono utilizzati in numerosi settori verticali, tra cui commercio al dettaglio, settore bancario, industria manifatturiera, telecomunicazioni, agricoltura e assicurazioni. Anche i casi d’uso sono molto vari e spaziano dalla vendita di prodotti online all’analisi dei rischi, alla scoperta di frodi finanziarie e all’ottimizzazione della crescita degli ortaggi nelle aziende agricole.
Caratteristiche del data mining
Prima di procedere con l’analisi dei dati, le aziende devono determinare i propri obiettivi: tutti i soggetti interessati e i data scientist collaborano per definire il problema aziendale e il contesto associato, in modo da stabilire domande e parametri da includere nel progetto di data mining.
A questo punto i data scientist dovranno identificare i dati che permetteranno di rispondere alle domande definite in precedenza. Il processo di estrazione per ottenere le informazioni necessarie deve basarsi su dati accurati e affidabili provenienti da fonti rilevanti, quindi la scelta dei dati giusti risulta fondamentale.
Una volta che i dati sono stati identificati è necessario ripulirli e strutturarli in un formato compatibile con gli strumenti di data mining disponibili. Questa operazione include la rimozione di eventuali duplicati e valori anomali. Lo step successivo consiste nel processo di costruzione dei modelli e nell’estrazione dei dati per pattern e correlazioni. A seconda della complessità dei dati, è possibile applicare algoritmi di Deep Learning per classificare o raggruppare questi insiemi di dati.
Una volta conclusa la fase di analisi ed elaborazione, i risultati generati possono essere trasmessi alle aziende e utilizzati per informare e agevolare il processo decisionale.

Sfide del data mining
Localizzazione e raccolta dei dati
Una delle principali sfide che le aziende si ritrovano ad affrontare quando avviano un progetto di data mining consiste nell’identificazione e successiva connessione di tutti i propri repository di dati.
Nelle aziende moderne i dati sono memorizzati in applicazioni come fogli di calcolo, database, ERP, software di contabilità e social media e sono disponibili in diversi formati strutturati e non che includono sempre più spesso dati generati da sensori e videocamere IoT.
Inoltre, spesso i dati vengono conservati in diverse aree dell'azienda e questo può rendere difficile raccogliere le informazioni pertinenti e associarle per avere un quadro completo di ciò che questi dati rappresentano. Ancor di più se le informazioni si trovano in diversi tipi di infrastruttura: on-premise, Cloud privato e Cloud pubblico.
Da qui la necessità di localizzare i dati grezzi e raccoglierli nei vari formati per inserirli in un repository centrale, o “data lake”, dove possono essere ripuliti e formattati prima di essere esaminati dagli strumenti di analisi.
Eliminazione di errori e incoerenze
Eventuali errori o imprecisioni dei dati grezzi, inclusi i duplicati e altri errori durante il processo di raccolta, avranno l’effetto di generare risultati inaffidabili che potrebbero portare a decisioni aziendali inadeguate. Preparare i dati iniziali eliminando tutte le anomalie è quindi fondamentale.
Un altro problema è relativo ai diversi formati in cui sono disponibili i dati: oltre a informazioni provenienti da fonti interne dovranno essere elaborati anche dati esterni come notizie, prezzi di azioni e materie prime, tassi di cambio... Tutti questi fattori possono influenzare le decisioni di un'azienda in materia di prezzi dei prodotti, investimenti e scelta del mercato target.
I campi in cui vengono inseriti i dati devono quindi essere standardizzati per garantirne una lettura efficace da parte degli strumenti di analisi e la visualizzazione una volta ingeriti nel data lake.
Elaborazione manuale
I dati che verranno estratti devono per prima cosa essere trasportati, trasformati e visualizzati. L’esecuzione manuale anche di uno solo di questi processi potrebbe richiedere più tempo e aumenta il rischio di introdurre nuovi errori nei dati.
L’automazione riduce invece le possibilità di errori e accelera il processo, permettendo di ottenere informazioni più rapidamente, in alcuni casi in tempo reale.
Scalabilità
Considerando l’enorme quantità di dati disponibili per le aziende, la scalabilità per elaborare tutte le informazioni in modo efficace può rappresentare un'ulteriore sfida. I datacenter on premise hanno sempre reso difficile per le aziende, in particolare piccole e medie imprese, ampliare la propria capacità di calcolo. Spesso è infatti necessario acquistare, installare e mantenere nuovo hardware, e molte aziende non possono permetterselo.
Oggi, grazie allo storage e all'elaborazione dei dati nel Cloud, le aziende possono aumentare la capacità di calcolo per gestire insiemi di dati più grandi e complessi e, una volta effettuato il data mining, spostare i dati in uno storage più economico senza dover continuare a pagare per l'elaborazione.
Sicurezza dei dati
In molti casi i dati contengono elementi relativi a proprietà intellettuale, identificazione personale, numeri di vendita, account e altre informazioni confidenziali. La sicurezza è quindi un aspetto di vitale importanza per i dati sia inattivi che in uso.
I dati in uso si trovano nella memoria attiva e sono quindi più vulnerabili. Per garantirne la protezione è necessario adottare strumenti che permettono alle aree di memoria, o enclave, di essere sicure e accessibili solo dai processi interni all'enclave assegnata.
Un altro possibile approccio consiste nell’apprendimento federato, in cui le aziende utilizzano il Machine Learning e gli algoritmi di IA per creare e migliorare i modelli senza compromettere i data set che includono informazioni confidenziali.
Tecniche di data mining
Esistono diversi possibili approcci al data mining, corrispondenti ai diversi tipi di informazioni. Le regole di associazione, ad esempio, costituiscono un metodo basato su regole per determinare le relazioni tra le variabili di dati. Questo approccio viene utilizzato spesso per analizzare gli articoli più comuni salvati nel carrello, in modo da consentire alle aziende di individuare i prodotti generalmente acquistati insieme e quindi guidare il cross selling proponendo suggerimenti ai consumatori.
Le reti neurali sono algoritmi di Deep Learning che elaborano i dati di addestramento imitando le connessioni del cervello umano. Per farlo utilizzano livelli di nodi in cui ogni nodo è composto da input, strati intermedi e output. Se il valore dell’output supera una determinata soglia, viene attivato un nodo per passare i dati al livello successivo della rete.
Per classificare o prevedere i possibili risultati con metodi di classificazione o regressione, gli alberi di decisione utilizzano una visualizzazione che somiglia ai rami di un albero per mostrare i potenziali esiti delle decisioni.
Infine, l’algoritmo K-nearest neighbour o K-NN, classifica i data point in base alla loro localizzazione e associazione ad altri dati. Partendo dal principio che data point simili possono trovarsi vicini, calcola la distanza tra i data point per identificare pattern.

Esempi di data mining
Vendita al dettaglio: combinare e analizzare dati provenienti dai modelli di navigazione e dalle abitudini di spesa di un cliente possono aiutare i venditori a comprendere meglio i tipi di clienti che visitano i loro siti e fornire un'esperienza più personale.
In questo modo, ad esempio, un'azienda ha la possibilità di offrire esperienze diverse ai clienti che spendono molto ma visitano il sito raramente e a quelli che invece spendono poco ma visitano il sito Web frequentemente.
Le tecniche di data mining possono aiutare i commercianti a incrementare le vendite di prodotti cross selling e aumentare le entrate. Ad esempio, se un cliente acquista il prodotto A potrebbe essere interessato anche al prodotto complementare o correlato B. Questo metodo può essere utilizzato anche per offrire al cliente un prodotto alternativo simile con un margine di profitto più elevato.
Il data mining può anche fornire informazioni relativamente alla flessibilità di prezzo di un cliente: continuerà ad acquistare un prodotto o un servizio se il prezzo aumenta? Quanto è probabile che acquisti più prodotti se il prezzo diminuisce? Di conseguenza, le società potrebbero utilizzare il data mining per capire l’effetto di una potenziale modifica del prezzo di un prodotto sui propri profitti.
Assicurazioni e servizi finanziari: le compagnie assicurative possono analizzare i dati dei clienti che richiedono una polizza. Un cliente potrebbe compilare il modulo più volte con informazioni diverse per ottenere il preventivo più economico, in modo totalmente innocente. Se però seleziona opzioni in contraddizione con le informazioni registrate per un acquisto precedente, questo comportamento potrebbe far scattare un campanello d'allarme e richiedere un’indagine più approfondita.
Il settore bancario utilizza da anni l’IA per monitorare i dati delle transazioni dei clienti e controllare le abitudini di spesa, come gli importi solitamente prelevati presso gli sportelli automatici o i tipi di prodotti acquistati con carta di credito. Se l’IA rileva il prelievo di un importo insolito da un luogo inusuale o un acquisto con carta di credito che non corrisponde alle normali abitudini, potrebbe identificare una frode in atto.
Gli istituti finanziari ricorrono comunemente all’analisi dei dati per valutare le richieste di prestito: lo storico dei pagamenti di un potenziale cliente, il rapporto entrate/uscite e lo storico dei crediti possono essere utilizzati per determinare i rischi in caso di concessione e quindi aiutare a stabilire i termini del prestito e i tassi di interesse.
Maggiore è il volume di dati raccolti, più facile diventa distinguere tra comportamenti "normali" e attività sospette che potrebbero richiedere ulteriori indagini.
Agricoltura : gli strumenti di data mining possono essere utilizzati anche dalle aziende agricole che producono colture o altri prodotti. Raccogliendo e analizzando dati quali livelli di irrigazione, ore di soleggiamento, esposizione al vento e altri elementi atmosferici, sostanze nutritive (presenti naturalmente nel suolo o aggiunte) e il rischio che le colture vengano mangiate o danneggiate da animali selvatici, gli agricoltori dovrebbero essere in grado di determinare la resa di qualsiasi coltura e identificare le zone dove è possibile apportare cambiamenti per aumentare la produzione più rapidamente.
Operazioni complesse: le tecniche di data mining possono essere utilizzate anche per ottimizzare i processi operativi grazie all’identificazione di colli di bottiglia dispendiosi in termini di tempo e denaro, processi inefficienti, problemi nella supply chain e migliorare i processi decisionali. Questo metodo, a volte definito "process mining", permette di monitorare i processi, valutare i miglioramenti, favorire la conformità e analizzare diverse funzioni, inclusi i centri di contatto.