speechbrain header
relaod

2 milioni di download

Happy Person

Contributi da 140 sviluppatori

receipt2x

Rilasciato con licenza Apache, versione 2.0

Executive Summary

SpeechBrain è uno strumento open source che mira a rendere l’IA conversazionale più accessibile a tutti. Creato dal Dott. Mirco Ravanelli e dal Dott. Titouan Parcollet, SpeechBrain facilita la ricerca e lo sviluppo di tecnologie di elaborazione del linguaggio neurale, come il riconoscimento vocale, la comprensione della voce, il miglioramento vocale, la sintesi vocale e molto altro.  L'obiettivo di SpeechBrain è sviluppare una macchina che, come il nostro cervello, sia in grado di comprendere il linguaggio parlato, capirne il contenuto e le emozioni, e intrattenere conversazioni con gli esseri umani.

Fig. 1
Fig. 1 Schema concettuale di SpeechBrain. L'obiettivo è sviluppare una serie di tecnologie in grado di emulare le abilità comunicative del cervello.

SpeechBrain è attualmente uno degli strumenti di elaborazione del parlato open source più diffusi e offre una piattaforma completa e flessibile a ricercatori, sviluppatori e sponsor di tutto il mondo.

La Sfida

Per poter rilasciare l'ultima versione di SpeechBrain (SpeechBrain 1.0), il team doveva implementare e supportare le tecnologie di Deep Learning più avanzate, come l'apprendimento auto-supervisionato, l'apprendimento continuo, i modelli linguistici di grandi dimensioni, i modelli di diffusione, la beam search avanzata, le streamable network, le reti neurali interpretabili e molto altro ancora. Implementare queste tecnologie complesse non è solo difficile, ma anche estremamente impegnativo in termini di calcolo. La sfida principale per il rilascio di SpeechBrain 1.0 era trovare risorse computazionali adeguate per stare al passo con le tecnologie avanzate, cosa che richiede modelli e dataset sempre più grandi.

Ad esempio, il team ha lavorato all’apprendimento continuo, ossia il processo in cui una rete neurale impara ed evolve nel tempo integrando nuove informazioni senza dimenticare quelle già acquisite. SpeechBrain ha aggiunto ai modelli linguistici di grandi dimensioni delle interfacce che aiutano gli utenti a metterli a punto e a creare chatbot. SpeechBrain ha implementato algoritmi sofisticati per la beam search, un metodo utilizzato nel riconoscimento vocale per trovare la sequenza di parole più probabile valutando diverse possibilità a ogni passo. Ciò ha migliorato notevolmente le prestazioni dei sistemi di riconoscimento vocale. Sempre in questo ambito, il team ha sviluppato sistemi di riconoscimento vocale in grado di elaborare il parlato in tempo reale, rendendoli più veloci e reattivi. Le reti neurali spesso fungono da scatole nere, il che significa che il loro funzionamento interno non è facilmente comprensibile. Per mitigare il problema, SpeechBrain ha implementato diverse soluzioni per rendere le reti neurali più interpretabili, aumentando il loro livello di comprensibilità e la trasparenza sul modo in cui prendono le decisioni. Infine, il team ha implementato dei modelli di diffusione, ossia tecniche avanzate per generare audio di alta qualità tramite una graduale rifinitura.

Per eseguire queste operazioni complesse, SpeechBrain aveva bisogno di una piattaforma Cloud scalabile in grado di supportare modelli di IA di grandi dimensioni, addestrati su quantità crescenti di dati. Poiché il suo obiettivo è democratizzare l’IA conversazionale, SpeechBrain voleva anche trovare un partner che condividesse i suoi valori di chiarezza e trasparenza, così come i principi open source di portabilità, interoperabilità e reversibilità.

La Soluzione

Con il suo impegno alla fiducia e alla trasparenza, oltre che la sua gamma di soluzioni Cloud basate su tecnologie open source, OVHcloud è stata la scelta più naturale per SpeechBrain. SpeechBrain ha adottato le istanze GPU NVIDIA® e la soluzione AI Training, entrambe ospitate sulla piattaforma Public Cloud di OVHcloud.

Le GPU (Graphic Processing Unit) sono chip all'interno di server in grado di elaborare dataset di grandi dimensioni e di eseguire calcoli matematici ad alte velocità. Per questo motivo, sono utilizzate da sviluppatori di IA e data scientist per creare ed eseguire modelli di addestramento dell'IA. Le GPU NVIDIA sono considerate tra le più veloci sul mercato e SpeechBrain ha adottato le GPU NVIDIA Tesla® V100, le GPU NVIDIA Tensor Core A100 e le GPU NVIDIA Tensor Core H100 per supportare i propri requisiti di addestramento dell’IA. Le GPU sono virtuali e accessibili come istanze Cloud sul Public Cloud di OVHcloud, senza necessità di acquistare hardware fisico.

Tesla V100 offre le prestazioni di 100 CPU in un'unica GPU, affermandosi come una delle GPU più potenti sul mercato. Offre un’inferenza 30 volte superiore e un throughput 47 volte superiore rispetto a una singola CPU, riducendo i tempi di addestramento dell’IA da settimane a giorni. Queste velocità elevate hanno consentito a SpeechBrain di aumentare l’efficienza dell’addestramento e di accelerare il time to market.

La GPU Tensor Core A100 amplia ulteriormente le prestazioni, con velocità di addestramento dell’IA fino a 3 volte superiori sui modelli più grandi. Ciò permette a più reti di funzionare contemporaneamente su una singola GPU, che può anche essere suddivisa in più istanze per gestire esigenze in continua evoluzione. L'A100 offre inoltre una maggiore capacità di memoria e un'inferenza di IA 249 volte superiore sulle CPU, rendendola ideale per l'esecuzione dei modelli di riconoscimento vocale su larga scala di SpeechBrain.

Per eseguire i calcoli più complessi, SpeechBrain ha anche adottato la GPU Tensor Core H100, che accelera di 30 volte l’addestramento dei modelli linguistici di grandi dimensioni e include un Transformer Engine per risolvere modelli da trilioni di parametri. Queste capacità hanno fornito la potenza e la velocità necessarie per addestrare facilmente i modelli complessi di SpeechBrain.

Per svolgere le proprie attività di addestramento, SpeechBrain ha infine utilizzato la soluzione AI Training di OVHcloud. Ospitato sul Public Cloud e basato sulla piattaforma open source Kubernetes, questo strumento consente di avviare un’attività di addestramento in pochi secondi ed è compatibile con le librerie open source di machine learning come PyTorch, TensorFlow e Scikit-learn. Gli sviluppatori possono inoltre avviare i propri progetti utilizzando i notebook Jupyter preconfigurati e le immagini Docker preinstallate. AI Training ottimizza anche l’assegnazione delle risorse GPU e consente l’esecuzione in parallelo di più attività, consentendo agli sviluppatori di concentrarsi sull’addestramento dei propri modelli di IA, senza doversi preoccupare di attività di progettazione complesse.

I Risultati

Collaborando con OVHcloud, SpeechBrain ha ottenuto la velocità, le prestazioni e gli strumenti necessari per creare i propri modelli di addestramento dell’IA conversazionale su larga scala.

L’adozione delle GPU NVIDIA e di AI Training ha permesso a SpeechBrain di accelerare l’addestramento dei propri modelli di IA e di gestire al contempo volumi crescenti di dati. Dal momento che queste soluzioni erano ospitate nel Public Cloud, SpeechBrain ha potuto usufruire di un'infrastruttura Cloud scalabile e affidabile con un Service Level Agreement (SLA) del 99,99% e distribuita su più datacenter per garantire la massima disponibilità. In questo modo, le GPU di SpeechBrain erano accessibili ogni volta che il team ne aveva bisogno. Il Public Cloud offre anche tariffe trasparenti e la tracciabilità dei costi tramite lo Spazio Cliente OVHcloud, consentendo a SpeechBrain di controllare i costi in modo efficiente.

Dal momento che offre soluzioni basate su licenze open source ed è membro storico dell’Open Invention Network (OIN), OVHcloud è il partner che meglio si allinea ai valori di chiarezza e trasparenza di SpeechBrain. SpeechBrain e OVHcloud intendono continuare a lavorare insieme per rendere l’IA conversazionale più accessibile a un pubblico più ampio e sostenere l’innovazione dell’IA in tutto il mondo.

"Quello che abbiamo apprezzato di più è stata la disponibilità di risorse computazionali, in particolare delle GPU, che erano accessibili anche quando avevamo bisogno di più sistemi contemporaneamente. Inoltre, l'introduzione delle GPU H100 è stata molto preziosa per noi, perché queste ci hanno permesso di accelerare notevolmente i nostri progressi".
Dott. Mirco Ravanelli, fondatore di SpeechBrain

Risorse
Sito Web: https://speechbrain.github.io/
Repository del codice: https://github.com/speechbrain/speechbrain
What’s new in SpeechBrain: https://colab.research.google.com/drive/1IEPfKRuvJRSjoxu22GZhb3czfVHsAy0s?usp=sharing
SpeechBrain: A General-Purpose Speech Toolkit: https://arxiv.org/abs/2106.04624