Whisper-large-v3-turbo

Audio Analysis

Whisper est un modèle de pointe pour la reconnaissance vocale automatique (ASR) et la traduction vocale, proposé dans l'article "Robust Speech Recognition via Large-Scale Weak Supervision" par Alec Radford et al. d'OpenAI. Entraîné sur plus de 5M d'heures de données étiquetées, Whisper démontre une forte capacité à se généraliser à de nombreux ensembles de données et domaines en configuration zero-shot. Whisper large-v3-turbo est une version affinée d'un Whisper large-v3 élagué. En d'autres termes, c'est exactement le même modèle, sauf que le nombre de couches de décodage a été réduit de 32 à 4. En conséquence, le modèle est beaucoup plus rapide, au prix d'une légère dégradation de la qualité.

À propos du modèle Whisper-large-v3-turbo

Publié sur huggingface

01/09/2024


Prix audio

0.00001278 /seconde


Formats de sortie
jsonverbose_jsontext
Taille du contexte
Inconnu
Paramètres
0.81B

Essayez le modèle.