Whisper-large-v3-turbo

Audio Analysis

Whisper to zaawansowany model rozpoznawania mowy (ASR) i tłumaczenia mowy. Powstał na podstawie pracy "Robust Speech Recognition via Large-Scale Weak Supervision" autorstwa Aleca Radforda i zespołu OpenAI. Został wytrenowany na podstawie ponad 5 milionów godzin nagrań opatrzonych etykietami, co pozwala mu skutecznie rozpoznawać mowę w różnych zestawach danych w trybie zero-shot. Whisper large-v3-turbo to dostrojona wersja okrojonego modelu Whisper large-v3. To w praktyce ten sam model, ale liczbę warstw dekodera zmniejszono z 32 do 4. Dzięki temu działa dużo szybciej, kosztem niewielkiego spadku jakości.

O modelu Whisper-large-v3-turbo

Opublikowano huggingface

01/09/2024


Cena audio

0.00001278 /sek.


Formaty wyjściowe
jsonverbose_jsontext
Rozmiary kontekstu
Nieznane
Parametry
0.81B

Wypróbuj model, bawiąc się nim.