Whisper-large-v3-turbo

Audio Analysis

Whisper ist ein hochmodernes Modell für automatische Spracherkennung (Automatic Speech Regognition, ASR) und Sprachübersetzung, das im Dokument "Robust Speech Recognition via Large-Scale Weak Supervision" (Zuverlässige Spracherkennung durch großangelegte schwache Beaufsichtigung) von Alec Radford et al. von OpenAI vorgeschlagen wurde. Whisper wurde anhand von über 5 Millionen Stunden gelabelter Daten trainiert und zeigt eine starke Fähigkeit, auf viele Datensätze und Gebiete in einem Zero-Shot-Setting zu verallgemeinern. Whisper large-v3-turbo ist eine feinabgestimmte Version eines beschnittenen Whisper large-v3. Mit anderen Worten: Es ist dasselbe Modell, nur dass die Anzahl der Dekodierungsschichten von 32 auf 4 reduziert wurde. Infolgedessen ist das Modell viel schneller, auf Kosten einer geringfügigen Qualitätsminderung.

Über das Whisper-large-v3-turbo Modell

Veröffentlicht am huggingface

01/09/2024


Audio-Preis

0.00001278 /Sekunde


Ausgabeformate
jsonverbose_jsontext
Kontextgrößen
Unbekannt
Parameter
0.81B

Testen Sie das Modell, indem Sie damit spielen.