Whisper-large-v3

Audio Analysis

O Whisper é um modelo de última geração para reconhecimento automático de fala (ASR) e tradução de fala, proposto no artigo «Robust Speech Recognition via Large-Scale Weak Supervision» de Alec Radford et al. da OpenAI. Treinado em mais de 5 milhões de horas de dados rotulados, o Whisper demonstra uma forte capacidade de generalização para diversos conjuntos de dados e domínios num cenário «zero-shot».

Sobre o modelo Whisper-large-v3

Publicado em huggingface

01/11/2023


Preço de áudio

0.00004083 /segundo


Formatos de saída
jsonverbose_jsontext
Tamanhos de contexto
Desconhecido
Parâmetros
1.54B

Experimente o modelo brincando com ele.