Whisper-large-v3

Audio Analysis

Whisper es un modelo de vanguardia para el reconocimiento automático de voz (ASR) y la traducción de voz, propuesto en el artículo «Reconocimiento de voz robusto mediante supervisión débil a gran escala» de Alec Radford et al. de OpenAI. Entrenado con más de 5 millones de horas de datos etiquetados, Whisper muestra una fuerte capacidad de generalización a diversos conjuntos de datos y dominios en un contexto de cero disparos.

Acerca del modelo Whisper-large-v3

Publicado el huggingface

01/11/2023


Precio de audio

0.00004083 /segundo


Formatos de salida
jsonverbose_jsontext
Tamaños de contexto
Desconocido
Parámetros
1.54B

Prueba el modelo jugando con él.