Whisper-large-v3-turbo

Audio Analysis

Whisper è un modello avanzato per il riconoscimento vocale automatico (ASR) e la traduzione, proposto nel documento "Robust Speech Recognition via Large-Scale Weak Supervision" di Alec Radford et al. di OpenAI. Addestrato per oltre 5 milioni di ore con dati etichettati, Whisper dimostra una forte capacità di generalizzare su molti dataset e domini in un contesto zero-shot. Whisper large-v3-turbo è una versione ottimizzata di un Whisper large-v3 snellito. In altre parole è esattamente lo stesso modello, ma il numero di livelli di decodifica è stato ridotto da 32 a 4. Di conseguenza il modello è molto più veloce, a discapito però di una leggera perdita di qualità.

Informazioni sul modello Whisper-large-v3-turbo

Pubblicato il huggingface

01/09/2024


Prezzo audio

0.00001278 /secondo


Formati di output
jsonverbose_jsontext
Dimensioni del contesto
Sconosciuto
Parametri
0.81B

Prova il modello giocando con esso.