Cos'è l'apprendimento supervisionato?

Name: Cos'è l'apprendimento supervisionato?
Brand: OVHcloud
Rating: 4.8 (476 reviews)

Al centro, l'apprendimento supervisionato è un tipo di Machine Learning in cui l'algoritmo impara dai dati etichettati.

Pensate all'apprendimento supervisionato come uno studente che impara con un insegnante. L'"insegnante" (spesso un data scientist o un esperto di domini) fornisce al computer una serie di esempi, in cui ogni esempio include sia l'input che l'output corretto corrispondente.

L'obiettivo fondamentale dell'apprendimento supervisionato è che l'algoritmo "impari" una regola generale o una funzione di mappatura che può prendere nuovi input non visti e prevedere l'output corretto per loro. Si chiama "supervisionato" perché il processo di un algoritmo che impara dai dati di addestramento può essere pensato come un insegnante che supervisiona il processo di apprendimento.

Conosciamo le risposte corrette (etichette), l'algoritmo fa iterativamente previsioni sui dati di addestramento ed è corretto dall'insegnante. L'apprendimento si interrompe quando l'algoritmo raggiunge un livello accettabile di performance.

Come funziona l'apprendimento supervisionato?

L'apprendimento supervisionato può sembrare complesso, ma i metodi sottostanti seguono un flusso di lavoro strutturato. Si tratta di insegnare a una macchina facendole degli esempi e poi testandone la comprensione. Ecco una descrizione dei passaggi tipici:

Raccolta e preparazione dei dati etichettati

Il processo inizia con la raccolta dei dati rilevanti. Fondamentalmente, per il Machine Learning supervisionato , questi dati devono essere etichettati. Ciò significa che ogni dato di input è associato a un corrispondente output corretto o "tag". Ad esempio, se costruisci un rilevatore di Spam, i tuoi dati saranno email (input) etichettate come "Spam" o "Not Spam" (output).

La qualità e la quantità di questi dati etichettati sono fondamentali nei metodi utilizzati. Più esempi rilevanti e di alta qualità vengono visualizzati dal modello di feature, meglio impareranno e funzioneranno. Questa fase spesso include la pulizia dei dati (gestione dei valori mancanti, rimozione degli errori) e la pre-elaborazione (trasformazione dei dati in un formato adatto all'algoritmo).

Suddivisione dei dati in Training, Validation e Test Set

Una volta ottenuto il dataset etichettato, è prassi comune non utilizzarlo interamente per insegnare direttamente il modello. Al contrario, è tipicamente divisa. Il set di addestramento è la porzione più grande dei dati ed è utilizzato per addestrare il modello di Machine Learning. Il modello "vede" questi esempi e apprende la relazione tra gli input e le etichette corrispondenti.

Durante il processo di addestramento viene utilizzato un gruppo di convalida (facoltativo ma altamente consigliato) per regolare i parametri del modello (iperparametri) e prendere decisioni sull'architettura del modello. Tale gruppo contribuisce a evitare che il modello diventi troppo specializzato per i dati di addestramento (un problema noto come sovradattamento) fornendo una valutazione imparziale.

Infine, il Test Set viene utilizzato dopo che il modello è stato addestrato (e convalidato) per fornire una valutazione imparziale delle prestazioni del modello finale. Questi dati non sono mai stati visti prima dal modello, quindi danno una buona indicazione di come il modello funzionerà su nuovi dati reali.

Scelta di un modello (selezione dell'algoritmo)

In base al problema che si sta cercando di risolvere (ad esempio, prevedere una categoria come "Spam/non Spam" - classificazione, o prevedere un valore continuo come il prezzo di una casa - regressione) e alla natura dei dati, è possibile selezionare un algoritmo di apprendimento supervisionato appropriato. Esistono molti algoritmi tra cui scegliere, come la regressione lineare, la regressione logistica, gli alberi decisionali, le macchine vettoriali di supporto (SVM), le reti neurali e altro ancora.

Addestramento del modello

È qui che avviene l'"apprendimento". L'algoritmo scelto elabora il set di addestramento. Il modello effettua delle stime sulla base dei dati di input e le confronta con le effettive etichette note.

In caso di discrepanza (errore), l’algoritmo regola i parametri interni per effettuare previsioni migliori la prossima volta. Ciò viene spesso fatto cercando di minimizzare una "funzione di perdita", che quantifica quanto sono lontane le previsioni del modello dai valori reali.

Questo processo di adeguamento iterativo continua fino a quando il modello non raggiunge un livello soddisfacente di accuratezza sui dati di addestramento (e funziona bene sui dati di convalida).

Valutazione del modello

Una volta completato l'addestramento, le prestazioni del modello vengono valutate utilizzando il set di test. Le metriche comuni utilizzate per la valutazione dipendono dal tipo di problema.

Per la classificazione, metriche come accuratezza, precisione, richiamo e punteggio F1 sono comuni. Per la regressione, vengono spesso utilizzati l'errore quadrato medio (MSE) o il valore R quadrato. Questo step è fondamentale per comprendere quanto il modello possa essere in grado di generalizzare a nuovi dati invisibili.

Se le prestazioni del modello sono soddisfacenti, può essere implementato per fare previsioni su nuovi dati dinamici. Ad esempio, il nostro filtro antispam inizierebbe a classificare le email in arrivo che non ha mai visto prima. È inoltre importante monitorare costantemente le prestazioni del modello nel mondo reale, poiché i modelli di dati possono cambiare nel tempo (un concetto noto come "deriva del modello"), richiedendo potenzialmente una riqualificazione o aggiustamenti del modello.

In sostanza, l'apprendimento supervisionato è un processo iterativo che trasmette esempi etichettati ad un algoritmo, permettendogli di imparare dei modelli, e quindi testando la sua capacità di generalizzare questi modelli a nuovi dati.

Tipi di Machine Learning supervisionato

I problemi di apprendimento supervisionato, sebbene siano tutti radicati nel principio dell'apprendimento dai dati etichettati, sono generalmente distinti in due categorie primarie: Classificazione e regressione. La differenza fondamentale tra di esse dipende dalla natura dell'output che il modello è progettato per prevedere.

Classificazione:

La classificazione riguarda le attività in cui l'obiettivo è prevedere un'etichetta di categoria o di classe discreta. Ciò significa che la variabile di output non è un numero che può variare continuamente, ma piuttosto un gruppo distinto, come "yes" o "no", "spam" o "not spam", oppure tipi di oggetti specifici come "cat", "dog" o "human".

Il modello apprende da un set di dati di addestramento in cui a ogni input è già assegnata una classe predefinita. Il suo obiettivo diventa quindi quello di assegnare accuratamente nuovi punti dati invisibili a una di queste categorie apprese.

Esistono numerose applicazioni pratiche di classificazione. Ad esempio, nel rilevamento della posta indesiderata, i modelli classificano le email in arrivo come "spam" o "non spam". Le attività di riconoscimento delle immagini utilizzano la classificazione per identificare gli oggetti all'interno delle immagini, ad esempio per classificare un'immagine come contenente una "macchina", una "bicicletta" o un "pedone".

Regressione:

D'altra parte, la regressione è la tecnica di apprendimento supervisionato utilizzata quando la variabile di output è un valore numerico continuo. A differenza della classificazione, che prevede a quale categoria appartiene qualcosa, la regressione mira a prevedere quanto di qualcosa è presente o quale sarà un valore numerico specifico. Il modello impara a eseguire il mapping delle variabili di input a un output continuo.

Gli esempi reali di regressione sono numerosi. La previsione del prezzo di una casa implica una stima del prezzo di mercato di una casa in base a caratteristiche come la sua dimensione, il numero di camere da letto e la posizione. Nella finanza, i modelli di regressione vengono utilizzati per la previsione dei corsi azionari, nel tentativo di prevedere i futuri valori delle azioni su cui basare le decisioni.

Gli algoritmi comunemente utilizzati per le attività di regressione comprendono la regressione lineare e la regressione polinomiale. Supportare la regressione vettoriale (SVR) è un'altra scelta popolare, insieme ad algoritmi adattabili come alberi decisionali, foreste casuali e reti neurali quando sono configurati per l'output continuo.

Apprendimento supervisionato vs apprendimento non supervisionato

Sebbene sia l'apprendimento supervisionato che quello non supervisionato siano pilastri fondamentali del Machine Learning e della previsione, affrontano i problemi utilizzando metodologie e obiettivi fondamentalmente diversi, che si distinguono principalmente per il tipo di dati che utilizzano e gli obiettivi che mirano a raggiungere. La comprensione delle differenze è fondamentale per scegliere l'approccio corretto per una determinata attività.

Scelta dei dati di input

L'esempio più significativo di distinzione risiede nella natura dei dati di input. L'apprendimento supervisionato, come abbiamo detto, si basa su dati etichettati. Ciò significa che durante la fase di addestramento, l'algoritmo viene fornito con set di dati in cui ogni esempio di input è associato a un output corretto corrispondente o "etichetta".

Impara confrontando la sua previsione con queste etichette note e regolandosi per minimizzare gli errori. Immaginatelo come Machine Learning con un insegnante che fornisce le risposte.

Considerazione dei dati non etichettati

Al contrario, l'apprendimento non supervisionato lavora con dati non etichettati. Gli algoritmi ricevono dati costituiti solo da funzioni di input, senza variabili di output esplicite o risposte corrette. L'obiettivo in questo caso non è prevedere un output predefinito, ma piuttosto esplorare i dati e scoprire strutture, modelli o relazioni intrinseche al loro interno. È come imparare osservando e identificando modelli per conto proprio, senza la guida esplicita di un insegnante.

L'aspetto della "supervisione" è chiaramente delimitante tra i due. Nell'apprendimento supervisionato, la presenza di etichette fornisce un feedback diretto sul processo di apprendimento su cui basarsi. All'algoritmo viene esplicitamente detto quale dovrebbe essere l'output corretto per ogni input, guidando il suo apprendimento. Nell'apprendimento non supervisionato, non esiste una guida così esplicita. Gli algoritmi devono dedurre modelli e relazioni esclusivamente dalle caratteristiche dei dati di input.

Esempi di casi d’uso del Machine Learning supervisionato

L'apprendimento supervisionato non è solo un concetto teorico o una previsione; è il motore alla base di una vasta gamma di applicazioni che hanno un impatto sulla nostra vita quotidiana e su vari settori. La sua capacità di imparare dagli esempi etichettati lo rende prezioso per le attività che richiedono una previsione e una classificazione. Di seguito sono riportati alcuni casi d'uso importanti:

Riconoscimento immagini e oggetti: Questa è un'applicazione classica della classificazione. I modelli di apprendimento supervisionati vengono addestrati su enormi dataset di immagini, dove ogni immagine è etichettata con gli oggetti in essa contenuti (ad esempio, "gatto", "macchina", "pedone", "albero").
Rilevamento posta indesiderata: Uno dei primi e più diffusi utilizzi dell'apprendimento supervisionato (in particolare la classificazione) consiste nel filtrare le email di Spam. I modelli vengono addestrati su un vasto corpus di email che sono state etichettate manualmente come "spam" o "not spam" (spesso chiamate "ham").
Diagnosi medica e assistenza sanitaria: L'apprendimento supervisionato svolge un ruolo sempre più importante nell'assistenza sanitaria, assistendo gli operatori sanitari nella diagnosi delle malattie. I modelli possono essere addestrati sui dati dei pazienti (inclusi sintomi, anamnesi, risultati di laboratorio e immagini mediche) etichettati con diagnosi confermate.
Analisi valutazione: Aziende e organizzazioni si affidano in larga misura alla comprensione dell'opinione pubblica e al feedback dei clienti. I modelli di apprendimento supervisionato (classificazione) sono addestrati su dati testuali (come recensioni di prodotti, post sui social media o risposte a sondaggi) che sono stati etichettati con sentimenti come "positivo", "negativo" o "neutro".
Rilevamento di frodi finanziarie: Nel settore finanziario, l'apprendimento supervisionato è fondamentale per identificare e prevenire le transazioni fraudolente. I modelli vengono addestrati sui dati storici delle transazioni, dove ogni transazione viene etichettata come "fraudolenta" o "legittima".
Previsione dei prezzi delle abitazioni e del valore delle azioni (regressione): I modelli di regressione nel Machine Learning supervisionato sono ampiamente utilizzati nella finanza e nel settore immobiliare. Per prevedere i prezzi delle case, i modelli vengono addestrati sui dati delle vendite immobiliari del passato, tra cui caratteristiche come la dimensione, il numero di camere da letto, la posizione, l'età e i servizi, insieme ai prezzi di vendita corrispondenti.

L'elenco di esempio sopra riportato rappresenta solo una frazione delle modalità di applicazione dell'apprendimento supervisionato. Man mano che i dati diventano più abbondanti e la potenza di calcolo aumenta, la gamma e la sofisticazione dei casi d’uso continueranno a crescere.

OVHcloud e l’apprendimento supervisionato

OVHcloud offre una suite di soluzioni su misura per supportare ogni fase del ciclo di vita dell’apprendimento supervisionato. OVHcloud fornisce gli strumenti per trasformare i dati in informazioni utili e fruibili, sia che si tratti di implementare senza difficoltà modelli addestrati, costruirne e addestrarne di nuovi su larga scala, sia che si tratti di utilizzare infrastrutture Cloud flessibili.

AI Endpoints

Implementa senza sforzo i tuoi modelli di Machine Learning in produzione con AI Endpoint. Concentrati sugli algoritmi mentre gestiamo l’infrastruttura. Il nostro servizio gestito permette di esporre i modelli addestrati tramite API HTTP scalabili e sicure, rendendoli facilmente disponibili per previsioni in tempo reale.

Scopri di più

Machine Learning

Le soluzioni di Machine Learning liberano tutto il potenziale dei dati. Questa potente piattaforma fornisce a data scientist e sviluppatori un ambiente completo per creare, addestrare e implementare modelli di Machine Learning su larga scala.

Scopri di più

Public Cloud

Scopri le nostre soluzioni Cloud, progettate per offrirti controllo completo e flessibilità sulla tua infrastruttura. Crea, distribuisci e gestisci le tue applicazioni con le nostre istanze di calcolo on demand, soluzioni di storage scalabili e solide funzionalità di rete.

Scopri di più