Whisper-large-v3-turbo

Audio Analysis

Whisper es un modelo de vanguardia para el reconocimiento automático de voz (ASR) y la traducción de voz, propuesto en el artículo «Reconocimiento de voz robusto mediante supervisión débil a gran escala» de Alec Radford et al. de OpenAI. Entrenado con más de 5 millones de horas de datos etiquetados, Whisper muestra una fuerte capacidad de generalización a diversos conjuntos de datos y dominios en un contexto de cero disparos. Whisper large-v3-turbo es una versión ajustada de un Whisper large-v3 simplificado. En otras palabras, es el mismo modelo exacto, excepto que el número de capas de decodificación se ha reducido de 32 a 4. Como resultado, el modelo es mucho más rápido, a expensas de una ligera reducción de la calidad.

Acerca del modelo Whisper-large-v3-turbo

Publicado el huggingface

01/09/2024


Precio de audio

0.00001278 /segundo


Formatos de salida
jsonverbose_jsontext
Tamaños de contexto
Desconocido
Parámetros
0.81B

Prueba el modelo jugando con él.