Cos'è l'apprendimento non supervisionato?


L'apprendimento non supervisionato è un tipo di Machine Learning in cui gli algoritmi imparano modelli da dati non etichettati. A differenza dell'apprendimento supervisionato, non esistono categorie di output predefinite; il sistema cerca di dare un senso ai dati identificando strutture, raggruppamenti o relazioni intrinseche.

machine learning

Come funziona l'apprendimento non supervisionato?

Gli algoritmi di apprendimento non supervisionati sono progettati per esplorare e trovare modelli nascosti in dataset privi di etichette predefinite o di risultati target. Anziché sentirsi dire cosa cercare, questi algoritmi esaminano i dati per scoprire strutture e relazioni intrinseche.

Esplorazione dei dati e individuazione dei modelli

Il processo di base dell’Intelligenza Artificiale inizia con il fornire all’algoritmo di Machine Learning un dataset costituito solo da funzionalità di input, senza variabili di output corrispondenti. L'algoritmo elabora quindi iterativamente questi dati, tentando di identificare i modelli sottostanti. Ciò potrebbe comportare:

  • Identificazione di somiglianze o differenze: L'algoritmo cerca i punti dati uguali o distinti in base alle loro caratteristiche.
  • Informazioni sulla distribuzione dei dati: Potrebbe cercare di capire come i dati sono distribuiti e se ci sono raggruppamenti naturali.
  • Riduzione della complessità: A volte l’obiettivo è semplificare i dati individuandone le caratteristiche più essenziali.

Approccio algoritmico

Diversi algoritmi di apprendimento non supervisionati hanno utilizzato varie tecniche matematiche e statistiche per raggiungere i loro obiettivi di addestramento. Per esempio:

Gli algoritmi di clustering mirano a raggruppare datapoint simili. Possono calcolare le distanze tra i punti e assegnare quelli vicini allo stesso cluster. L'algoritmo apprende le caratteristiche di questi gruppi dai dati stessi.

Gli algoritmi di riduzione della dimensionalità cercano di ridurre il numero di variabili di addestramento (funzionalità) nel set di dati, preservando al contempo le informazioni importanti. Identificano correlazioni e ridondanze per creare una rappresentazione più compatta dei dati.

Gli algoritmi di data mining delle regole di associazione cercano relazioni o occorrenze congiunte tra elementi in dataset di grandi dimensioni, ad esempio identificando prodotti acquistati frequentemente in un supermercato.

L’algoritmo di Intelligenza Artificiale impara essenzialmente la struttura intrinseca dei dati minimizzando o massimizzando una funzione oggettiva che cattura l’essenza della struttura "buona" (ad esempio, minimizzando la distanza all’interno dei cluster e massimizzando la distanza tra i cluster). È un processo esplorativo guidato dai dati stessi.

Diversi tipi di apprendimento non supervisionato

L'apprendimento non supervisionato identifica i modelli nei dati non etichettati utilizzando tecniche come il clustering, la riduzione della dimensionalità e il mining di regole di associazione, che possono essere integrate nei flussi di lavoro MLOps.

Clustering

Il clustering è forse il tipo di apprendimento non supervisionato più diffuso. L'obiettivo principale del clustering per il modello è di raggruppare un insieme di oggetti in modo tale che gli oggetti dello stesso gruppo, denominato cluster, siano più simili tra loro rispetto a quelli di altri cluster. L'algoritmo individua questi raggruppamenti naturali nei dati in base alle caratteristiche intrinseche dei punti dati.
 

Il clustering in genere funziona misurando la somiglianza (o dissomiglianza) tra i punti dati, spesso utilizzando metriche di distanza come la distanza euclidea o la somiglianza coseno. Assegnano quindi punti dati ai cluster per massimizzare la somiglianza all'interno del cluster e minimizzare la somiglianza tra cluster, completando il processo di clustering.

Riduzione della dimensionalità

Le tecniche di riduzione della dimensionalità mirano a ridurre il numero di variabili o feature casuali prese in considerazione. Questo è particolarmente utile quando si tratta di dataset ad alta dimensione (dataset con molte caratteristiche), in quanto può semplificare i dati, ridurre la complessità computazionale, mitigare la "maledizione della dimensionalità" e aiutare la visualizzazione.
 

Questi metodi trasformano i dati del modello da uno spazio ad alta dimensione in uno spazio a bassa dimensione, cercando di preservare le proprietà significative e la varianza dei dati originali. Questo può essere ottenuto attraverso la selezione delle feature, che seleziona un sottoinsieme delle feature originali, o l'estrazione delle feature, che crea un nuovo insieme più piccolo di feature combinando le feature di esempio originali.

Data mining regola di associazione

Il data mining delle regole di associazione è un metodo basato su regole per l'individuazione di relazioni interessanti tra variabili in dataset di grandi dimensioni. È ampiamente utilizzato per identificare modelli di co-occorrenza, ad esempio articoli acquistati frequentemente insieme nell'analisi del carrello di acquisti.
 

Questi algoritmi cercano regole "if-then" (se-allora") (ad esempio, se l'articolo A è acquistato, allora l'articolo B è probabilmente acquistato). La forza di queste regole viene valutata utilizzando metriche come: supporto, che indica la frequenza con cui gli articoli vengono visualizzati nel dataset; confidenza, che indica la frequenza con cui la regola è risultata vera; e solleva, che misura la probabilità che l'articolo B venga acquistato quando l'articolo A viene acquistato, rispetto alla probabilità generale di utilizzo.

Rilevamento di anomalie (rilevamento di anomalie)

Anche se a volte viene considerato un campo separato, il rilevamento delle anomalie spesso impiega tecniche non supervisionate per identificare punti dati, eventi o osservazioni che si discostano in modo significativo dalla maggior parte dei dati - le "anomalie" o i "valori anomali". Poiché le anomalie sono rare e spesso sconosciute in anticipo, i metodi non supervisionati sono ben adatti in quanto non richiedono una conoscenza preventiva (etichette) di ciò che costituisce un'anomalia.
 

In questo caso, i metodi creano un modello di comportamento normale dei dati e quindi identificano le istanze non conformi a questo modello. Questo può essere basato su proprietà statistiche, distanze, densità o errori di ricostruzione.

Sfide e limiti dell'apprendimento non supervisionato

L’apprendimento non supervisionato, oltre a fornire potenti strumenti per scoprire informazioni nascoste nei dati utilizzando la pipeline del Machine Learning per il modello, presenta anche una serie di sfide e limitazioni. Forse uno degli ostacoli più significativi è la difficoltà nel valutare i risultati.

A differenza dell'apprendimento supervisionato, in cui i modelli sono valutati rispetto a etichette note, l'apprendimento non supervisionato non ha una "verità di fondo" definitiva. Questo rende intrinsecamente più difficile misurare oggettivamente la qualità o la significatività dei modelli scoperti, spesso richiedendo metodi di convalida più soggettivi o indiretti.

Inoltre, l'interpretazione dei risultati degli algoritmi di Intelligenza Artificiale non supervisionati si basa in gran parte sull'esperienza di esempi di domini per il modello. I pattern, i cluster o le dimensioni ridotte identificati dal modello richiedono un attento esame da parte di un utente esperto nel campo specifico per determinarne il significato effettivo e le implicazioni pratiche. Senza il contributo di questi esperti, c'è il rischio di interpretare in modo errato i risultati o di focalizzarsi su modelli che sono statisticamente interessanti ma praticamente irrilevanti.

Variazioni delle prestazioni

Le prestazioni dei modelli di apprendimento non supervisionati sono molto sensibili alla scelta e alla scalabilità delle funzionalità. Caratteristiche irrilevanti o poco scalabili possono nascondere modelli significativi o indurre gli algoritmi a scoprire strutture fuorvianti.

Di conseguenza, per ottenere utili risultati di esempio sono spesso necessari notevoli sforzi nella progettazione delle feature e nella pre-elaborazione. Inoltre, anche se l'apprendimento non supervisionato eccelle nell'identificazione delle strutture intrinseche, non prevede direttamente risultati specifici o variabili target, il che può essere un limite se un compito predittivo è l'obiettivo finale.

Alcuni algoritmi, in particolare quelli relativi a dataset di grandi dimensioni o ad alta dimensionalità, possono essere anche ad uso intensivo di calcoli e richiedono risorse considerevoli. Infine, esiste sempre la possibilità che gli algoritmi scoprano modelli spuri o privi di significato, soprattutto se i dati sono rumorosi o se il metodo scelto non è adatto alla struttura sottostante del dataset, rendendo fondamentali un'attenta analisi e convalida.

Apprendimento non supervisionato vs apprendimento supervisionato

Comprendere la distinzione tra apprendimento di modelli non supervisionato e supervisionato è fondamentale per cogliere il panorama del Machine Learning. Sebbene entrambi mirino a ricavare informazioni dai dati, i loro approcci e obiettivi differiscono in modo significativo, principalmente in base alla natura dei dati utilizzati. La differenza principale risiede nei dati stessi.

Apprendimento supervisionato

Gli algoritmi di Machine Learning supervisionati utilizzano dati di esempio etichettati. Ciò significa che, per il processo supervisionato, a ogni punto dati nel set di addestramento è associata una variabile di output o di destinazione nota. L'algoritmo impara a mappare le feature di input a queste etichette predefinite.

L’obiettivo primario del processo supervisionato è prevedere un esito specifico o la classificazione dei dati in categorie note. Ad esempio, prevedere i prezzi delle case in base a caratteristiche come la dimensione e la posizione (dove sono noti i prezzi storici), o classificare le email come Spam o non Spam (dove le email sono pre-etichettate) sono compiti comuni di apprendimento supervisionato.

Apprendimento non supervisionato

Al contrario, gli algoritmi di Machine Learning non supervisionati utilizzano dati di esempio non etichettati per la modellazione. Le coordinate per il modello non hanno output o categorie predefinite. L'algoritmo deve esplorare i dati per trovare modelli, strutture o relazioni intrinseche.

L'obiettivo principale è scoprire modelli nascosti, raggruppare elementi simili o ridurre la complessità dei dati. Ad esempio, è possibile segmentare i clienti in diversi gruppi in base al loro comportamento di acquisto (senza essere a conoscenza di tali gruppi) o identificare anomalie nel traffico di rete.

Confronto delle caratteristiche principali

Suddividiamo le caratteristiche distintive di ogni approccio basato su un modello di intelligenza artificiale. Quando pensiamo all'apprendimento supervisionato, troviamo le seguenti caratteristiche:

  • Dati di input: Utilizza dati etichettati, ovvero ogni punto dati viene fornito con un tag o un output corretto corrispondente.
     
  • Obiettivo primario: Ha lo scopo di prevedere i risultati per i nuovi dati o classificare i dati in categorie predefinite in base alla mappatura appresa dai dati di addestramento etichettati.
     
  • Algoritmi: Algoritmi comuni includono la regressione lineare, la regressione logistica, il supporto delle macchine vettoriali (SVM), gli alberi decisionali e le reti neurali (per le attività supervisionate).
     
  • Linee guida: Il processo di apprendimento è guidato in modo esplicito dalle variabili target note nel dataset di formazione.
     
  • Attività comuni: Ne sono un esempio il rilevamento di spam nelle email, il riconoscimento delle immagini (ad esempio, l'identificazione dei gatti nelle foto), la diagnosi medica basata sui dati dei pazienti e la previsione dei prezzi delle azioni.
     
  • Valutazione Le performance sono tipicamente misurate confrontando le previsioni dell'algoritmo con le etichette note, utilizzando metriche come l'accuratezza, la precisione, il richiamo, il punteggio F1 o l'errore quadrato medio.

D'altro canto, un modello di apprendimento non supervisionato presenta queste caratteristiche:

  • Dati di input: Funziona con dati di esempio senza etichetta, in cui vengono fornite solo le funzioni di input senza variabili di output corrispondenti.
     
  • Obiettivo primario: Si concentra sull'individuazione di modelli nascosti, strutture intrinseche o relazioni all'interno dei dati. Questo include il raggruppamento di datapoint simili (clustering), la riduzione del numero di feature (riduzione della dimensionalità) o la ricerca di pattern di co-occorrenza (mining di regole di associazione).
     
  • Algoritmi: Gli algoritmi più diffusi includono il clustering K-Means, il clustering gerarchico, la Principal Component Analysis (PCA), l'algoritmo Apriori Gli Autoencoder, spesso classificati come tecniche di apprendimento auto-supervisionate, possono essere utilizzati per la riduzione della dimensionalità e il rilevamento delle anomalie.
     
  • Linee guida: L'algoritmo esplora i dati senza una guida esplicita o risposte corrette predefinite.
     
  • Attività comuni: Ne sono un esempio la segmentazione dei clienti per il marketing, il rilevamento di anomalie nelle transazioni finanziarie, la modellazione di argomenti in documenti di testo di grandi dimensioni e la creazione di sistemi consigliati.
     
  • Valutazione La valutazione è spesso più impegnativa e soggettiva in quanto non esistono risposte "corrette" da confrontare. Le metriche possono includere la coesione e la separazione del cluster (per il clustering), la quantità di varianza mantenuta (per la riduzione della dimensionalità) o la valutazione umana dei pattern scoperti.
     

Quando utilizzare che è una domanda completamente diversa. È consigliabile scegliere l'apprendimento supervisionato quando i dati sono etichettati e si desidera prevedere o utilizzare un risultato target chiaro per la classificazione.

È consigliabile optare per l'Intelligenza Artificiale di apprendimento non supervisionata quando si dispone di dati non etichettati e si desidera esplorarli per ottenere informazioni nascoste, raggrupparli o semplificarne la struttura.

Casi d’uso del Machine Learning non supervisionato

L'apprendimento non supervisionato, attraverso la scoperta di modelli nascosti di dati non etichettati per un modello, guida una varietà di applicazioni di grande impatto in molti settori. Le applicazioni principali includono:

  • Applicazioni di clustering: Questi metodi raggruppano punti dati simili per scoprire i segmenti naturali. Gli utilizzi più comuni includono la segmentazione dei clienti per un marketing mirato, l'organizzazione di grandi set di documenti per argomento (modellazione di argomenti), la segmentazione delle immagini per identificare gli oggetti e l'identificazione delle comunità nei social network.
     
  • Applicazioni per la riduzione della dimensione: Queste tecniche semplificano i dataset complessi riducendo il numero di feature e preservando le informazioni importanti. Si tratta di un aspetto fondamentale per la visualizzazione di dati altamente dimensionali, il miglioramento dell'efficienza e delle prestazioni di altri modelli di Machine Learning tramite l'ingegneria delle funzionalità e la riduzione del rumore nei dati.
     
  • Applicazioni di data mining delle regole di associazione: Questo tipo di algoritmo di computer individua relazioni interessanti e pattern di co-occorrenza tra elementi in dataset di grandi dimensioni. È utilizzato principalmente per analizzare il mercato della vendita al dettaglio (per vedere quali prodotti vengono acquistati insieme), per alimentare i motori di raccomandazione nei servizi di e-commerce e streaming e per analizzare i modelli di utilizzo del Web.
     
  • Applicazioni di rilevamento delle anomalie: Queste applicazioni si concentrano sull'identificazione di elementi rari, eventi o osservazioni che si discostano in modo significativo dalla norma. I casi d’uso critici includono il rilevamento delle frodi nelle transazioni finanziarie, il rilevamento delle intrusioni nei sistemi di sicurezza informatica, l’identificazione di difetti nei processi di produzione e il monitoraggio della salute dei pazienti per rilevare segni vitali insoliti.

OVHcloud e l’apprendimento non supervisionato

Per implementare e scalare in modo efficace progetti di apprendimento non supervisionato e il proprio modello, sono essenziali strumenti e infrastrutture solidi. OVHcloud fornisce diverse soluzioni progettate per supportare lo sviluppo, l’implementazione e la gestione di modelli di Machine Learning, inclusi quelli utilizzati in contesti di apprendimento non supervisionato:

Public Cloud Icon

AI Deploy

Con AI Deploy è possibile implementare e scalare senza sforzo i modelli di Machine Learning. Colmare il divario tra sviluppo e produzione di Intelligenza Artificiale rendendo i modelli di IA facilmente accessibili tramite API. Concentrati sugli algoritmi mentre gestiamo l’infrastruttura, garantendo alta disponibilità e prestazioni elevate per le tue applicazioni intelligenti.

Hosted Private cloud Icon

IA e Machine Learning

Con la nostra soluzione di Machine Learning potente e scalabile, acceleri i flussi di lavoro di IA e Machine Learning. OVHcloud AI Machine Learning fornisce gli strumenti e l’infrastruttura necessari per addestrare, gestire e implementare i propri modelli in modo efficiente.

Bare MetaL Icon

Public Cloud

Costruisci, distribuisci e gestisci le tue applicazioni di Intelligenza Artificiale con flessibilità e controllo nella soluzione Public Cloud di OVHcloud. La nostra infrastruttura robusta e scalabile offre un'ampia gamma di servizi, tra cui istanze di calcolo, soluzioni di storage e capacità di rete.