Whisper-large-v3-turbo

Audio Analysis

Whisper is een state-of-the-art model voor automatische spraakherkenning (ASR) en spraakvertaling, voorgesteld in het artikel "Robust Speech Recognition via Large-Scale Weak Supervision" door Alec Radford et al. van OpenAI. Whisper is getraind op meer dan 5 miljoen uur gelabelde data en toont een sterke capaciteit om te generaliseren naar veel datasets en domeinen in een zero-shot omgeving. Whisper large-v3-turbo is een fijn afgestelde versie van een uitgedunde Whisper large-v3. Met andere woorden, het is exact hetzelfde model, behalve dat het aantal decoderinglagen is verminderd van 32 naar 4. Als gevolg hiervan is het model veel sneller, ten koste van een kleine kwaliteitsdegradatie.

Over Whisper-large-v3-turbo model

Gepubliceerd op huggingface

01/09/2024


Audioprijs

0.00001278 /seconde


Uitvoerformaten
jsonverbose_jsontext
Contextgroottes
Onbekend
Parameters
0.81B

Probeer het model uit door ermee te spelen.