Whisper-large-v3

Audio Analysis

Whisper ist ein hochmodernes Modell für automatische Spracherkennung (Automatic Speech Regognition, ASR) und Sprachübersetzung, das im Dokument "Robust Speech Recognition via Large-Scale Weak Supervision" (Zuverlässige Spracherkennung durch großangelegte schwache Beaufsichtigung) von Alec Radford et al. von OpenAI vorgeschlagen wurde. Whisper wurde anhand von über 5 Millionen Stunden gelabelter Daten trainiert und zeigt eine starke Fähigkeit, auf viele Datensätze und Gebiete in einem Zero-Shot-Setting zu verallgemeinern.

Über das Whisper-large-v3 Modell

Veröffentlicht am huggingface

01/11/2023


Audio-Preis

0.00004083 /Sekunde


Ausgabeformate
jsonverbose_jsontext
Kontextgrößen
Unbekannt
Parameter
1.54B

Testen Sie das Modell, indem Sie damit spielen.