Whisper-large-v3-turbo

Audio Analysis

O Whisper é um modelo de última geração para reconhecimento automático de fala (ASR) e tradução de fala, proposto no artigo «Robust Speech Recognition via Large-Scale Weak Supervision» de Alec Radford et al. da OpenAI. Treinado em mais de 5 milhões de horas de dados rotulados, o Whisper demonstra uma forte capacidade de generalização para diversos conjuntos de dados e domínios num cenário «zero-shot». O Whisper large-v3-turbo é uma versão otimizada de um Whisper large-v3 reduzido. Por outras palavras, é exatamente o mesmo modelo, exceto que o número de camadas de descodificação diminuiu de 32 para 4. Como resultado, o modelo fica muito mais rápido, à custa de uma pequena degradação da qualidade.

Sobre o modelo Whisper-large-v3-turbo

Publicado em huggingface

01/09/2024


Preço de áudio

0.00001278 /segundo


Formatos de saída
jsonverbose_jsontext
Tamanhos de contexto
Desconhecido
Parâmetros
0.81B

Experimente o modelo brincando com ele.