SpeechBrain ofrece innovación en IA conversacional con las soluciones Public Cloud de OVHcloud
OVHcloud y SpeechBrain


Más de 2 millones de descargas

Contribuciones de 140 desarrolladores

Publicado bajolicencia Apache, versión 2.0
El contexto
SpeechBrain es un kit de herramientas open source cuyo objetivo es hacer que la IA conversacional sea más accesible para todos. SpeechBrain es una creación del Dr. Mirco Ravanelli y el Dr. Titouan Parcollet. Facilita la investigación y el desarrollo de tecnologías de procesamiento neuronal de la voz, como el reconocimiento de voz, la comprensión del lenguaje hablado, la mejora del habla, la conversión de texto a voz y mucho más. El objetivo de SpeechBrain es desarrollar una máquina que, al igual que nuestros propios cerebros, pueda comprender de forma natural el habla, comprender su contenido y emociones, y participar en conversaciones interesantes con los seres humanos.

Fig. 1. La idea conceptual de SpeechBrain. El objetivo es la creación de diferentes tecnologías que puedan emular las capacidades de comunicación del cerebro.
En la actualidad, SpeechBrain ofrece uno de los kits de herramientas open source de procesamiento de voz más populares, proporcionando una plataforma flexible e integral para una comunidad internacional de investigadores, desarrolladores y patrocinadores.
El desafío
Para el lanzamiento de la última versión de SpeechBrain (SpeechBrain 1.0), el equipo de SpeechBrain necesitaba implementar y respaldar las tecnologías de deep learning más avanzadas, como el aprendizaje autosupervisado, el aprendizaje continuo, los grandes modelos de lenguaje (LLM), los modelos de difusión, la búsqueda por haz («beam search») avanzada, las redes optimizables, las redes neuronales interpretables y mucho más. La implementación de estas técnicas complejas no solo plantea un desafío, sino que también resulta extremadamente exigente desde el punto de vista computacional. El reto principal para el lanzamiento de SpeechBrain 1.0 fue encontrar recursos computacionales adecuados para mantener el ritmo de la tecnología de última generación, que requiere modelos y conjuntos de datos cada vez más grandes.
Por ejemplo, el equipo trabajó en el aprendizaje continuo, que es el proceso en el que una red neuronal aprende y se adapta con el tiempo al integrar nueva información sin olvidar conocimientos previos. SpeechBrain agregó interfaces a modelos de lenguaje de gran tamaño, lo que facilita a los usuarios ajustarlos y crear chatbots. SpeechBrain implementó algoritmos sofisticados para la búsqueda por haz, que es un método utilizado en el reconocimiento de voz para encontrar la secuencia de palabras más probable al considerar múltiples posibilidades en cada paso. Esto mejoró significativamente el rendimiento de sus reconocedores de voz. En la misma línea, desarrollaron reconocedores de voz que pueden trabajar en tiempo real, procesando palabras habladas a medida que se dicen, haciéndolas más rápidas y más receptivas. A menudo, las redes neuronales funcionan como cajas negras, lo que significa que su funcionamiento interno no se entiende fácilmente. Con el fin de mitigar este problema, SpeechBrain implementó varios métodos para hacer que las redes neuronales sean más interpretables, aumentando su capacidad de ser comprensibles y transparentes a la hora de tomar decisiones. Finalmente, el equipo implementó modelos de difusión, que son técnicas avanzadas para generar audio de alta calidad refinándolo de manera gradual.
Lograr estas tareas exigentes requería una plataforma cloud escalable que pudiera soportar grandes modelos de IA entrenados en cantidades cada vez mayores de datos. Puesto que el objetivo de SpeechBrain es democratizar la IA conversacional, también querían encontrar un partner que se alineara con sus valores de apertura y transparencia, así como con los fundamentos de open source: portabilidad, interoperabilidad y reversibilidad.
La solución
Gracias a su compromiso con la confianza y la apertura, y su oferta de soluciones cloud basadas en tecnologías open source, OVHcloud se ha convertido en la opción natural de SpeechBrain. SpeechBrain ha adoptado las instancias de GPU NVIDIA® y AI Training, ambas alojadas en la plataforma Public Cloud de OVHcloud.
Las GPU (unidades de procesamiento gráfico) son chips informáticos dentro de servidores que pueden procesar grandes conjuntos de datos y realizar cálculos matemáticos a altas velocidades. Por esta razón, los desarrolladores de IA y los científicos de datos las utilizan con el fin de crear y ejecutar modelos de entrenamiento de IA. Las GPU NVIDIA están consideradas entre las más rápidas que existen, y SpeechBrain adoptó las GPU NVIDIA Tesla® V100, las GPU NVIDIA Tensor Core A100 y las GPU NVIDIA Tensor Core H100 para satisfacer sus requerimientos específicos de entrenamiento de IA. Estas GPU son virtuales y accesibles como instancias cloud en el Public Cloud de OVHcloud, sin necesidad de adquirir hardware físico.
El modelo Tesla V100 ofrece el rendimiento de 100 CPU en una sola GPU, lo que lo convierte en una de las GPU más potentes del mercado actual. Ofrece una inferencia 30 veces mayor y un rendimiento 47 veces mayor que una sola CPU, lo que reduce los tiempos de entrenamiento de IA de semanas a días. Estas altas velocidades permitieron a SpeechBrain aumentar la eficiencia de su entrenamiento y acelerar el tiempo de comercialización.
La GPU Tensor Core A100 proporcionó un mayor rendimiento, con velocidades de entrenamiento de IA hasta tres veces más altas en los modelos más grandes. Permite que varias redes funcionen en una única GPU al mismo tiempo y también se pueden particionar en varias instancias para satisfacer las demandas dinámicas. El modelo A100 también ofrece una mayor capacidad de memoria y una inferencia de IA 249 veces mayor que las CPU, lo que lo hace ideal para ejecutar los modelos de reconocimiento de voz a gran escala de SpeechBrain.
Para resolver sus cálculos más complejos, SpeechBrain también adoptó la GPU Tensor Core H100, que acelera 30 veces el entrenamiento de grandes modelos de lenguaje e incluye un Motor de transformación para resolver modelos con billones de parámetros. Estas capacidades proporcionaron la potencia y la velocidad necesarias para entrenar fácilmente los modelos complejos de SpeechBrain.
Por último, para llevar a cabo sus tareas de entrenamiento, SpeechBrain ha aprovechado la solución AI Training de OVHcloud. Esta herramienta, alojada en el Public Cloud y basada en la plataforma open source Kubernetes, permite lanzar una tarea de entrenamiento en cuestión de segundos y es compatible con las librerías de machine learning open source como PyTorch, TensorFlow y Scikit-learn. Los desarrolladores también pueden poner en marcha sus proyectos utilizando notebooks Jupyter preconfigurados e imágenes Docker preinstaladas. AI Training también optimiza la asignación de recursos de GPU y permite ejecutar varias tareas en paralelo, lo que permite a los desarrolladores concentrarse en entrenar sus modelos de IA, sin tener que preocuparse por tareas de ingeniería complejas.
El resultado
Asociarse con OVHcloud le aportó a SpeechBrain la velocidad, el rendimiento y las herramientas necesarias para ofrecer sus modelos de entrenamiento de IA conversacional a gran escala.
La adopción de las GPU NVIDIA y el entrenamiento de IA permitió a SpeechBrain acelerar su entrenamiento de modelo de IA, al tiempo que acomodaba volúmenes cada vez mayores de datos. Como todas estas soluciones estaban alojadas en el Public Cloud, SpeechBrain pudo beneficiarse de una infraestructura cloud escalable y fiable, que cuenta con un acuerdo de nivel de servicio (SLA) del 99,99 % y está construida sobre varios datacenters para garantizar la alta disponibilidad. Esto garantizó que las GPU de SpeechBrain fueran accesibles siempre que fuera necesario. Public Cloud también ofrece precios transparentes y seguimiento de costes a través del área de cliente de OVHcloud, lo que permite a SpeechBrain controlar los gastos de forma eficaz.
Las ventajas de tener a OVHcloud como partner incluyen el hecho de que sus soluciones se basan en licencias open source y que es miembro de la Open Invention Network (OIN), además sus valores de apertura y transparencia se alinean con los de SpeechBrain. Ambas empresas planean seguir trabajando juntas para hacer que la IA conversacional sea más accesible para una público más amplio y apoyar la innovación de la IA en todo el mundo.
«Nuestra experiencia más positiva giró en torno a la disponibilidad de recursos computacionales, especialmente las GPU, que eran accesibles de forma constante incluso cuando necesitábamos varias simultáneamente. Además, valoramos enormemente la introducción de las GPU H100, ya que han acelerado significativamente nuestro progreso».
Dr. Mirco Ravanelli, creador de SpeechBrain