Whisper-large-v3

Audio Analysis

Whisper to zaawansowany model rozpoznawania mowy (ASR) i tłumaczenia mowy. Powstał na podstawie pracy "Robust Speech Recognition via Large-Scale Weak Supervision" autorstwa Aleca Radforda i zespołu OpenAI. Został wytrenowany na podstawie ponad 5 milionów godzin nagrań opatrzonych etykietami, co pozwala mu skutecznie rozpoznawać mowę w różnych zestawach danych w trybie zero-shot.

O modelu Whisper-large-v3

Opublikowano huggingface

01/11/2023


Cena audio

0.00004083 /sek.


Formaty wyjściowe
jsonverbose_jsontext
Rozmiary kontekstu
Nieznane
Parametry
1.54B

Wypróbuj model, bawiąc się nim.