O que é o modelo Whisper?

2025-05-23

O modelo Whisper é um modelo de fala para texto da OpenAI que você pode usar para transcrever ou traduzir arquivos de áudio. O modelo é treinado em um grande conjunto de dados de áudio e texto em inglês.

O modelo é otimizado para transcrever arquivos de áudio que contêm fala em inglês.
O modelo também pode ser usado para traduzir arquivos de áudio que contêm fala em outros idiomas. O resultado da transcrição é texto em inglês.

Os modelos Whisper estão disponíveis através do Azure OpenAI nos modelos da Azure AI Foundry ou através do Azure AI Speech. Os recursos diferem para essas ofertas. No Azure AI Speech (transcrição em lote), o Whisper é apenas um dos vários modelos que você pode usar para conversão de fala em texto.

Poderá perguntar:

O Modelo de Sussurro é uma boa escolha para o meu cenário ou um modelo de Fala de IA do Azure é melhor? Quais são as comparações de API entre os dois tipos de modelos?
Se eu quiser usar o Modelo de Sussurro, devo usá-lo por meio do Azure OpenAI ou do Azure AI Speech? Quais são os cenários que me orientam a usar um ou outro?

Modelo de sussurro ou modelos de Fala do Azure AI

O modelo Whisper ou os modelos Azure AI Speech são apropriados dependendo dos seus cenários. Se você decidir usar o Azure AI Speech, poderá escolher entre vários modelos, incluindo o modelo Whisper. A tabela a seguir compara opções com recomendações sobre por onde começar.

Cenário	Modelo de sussurro	Modelos de Fala do Azure AI
Transcrições, legendas e legendas em tempo real para áudio e vídeo.	Não disponível	Recomendado
Transcrições, legendas e legendas para áudio e vídeo pré-gravados.	O modelo Whisper através do Azure OpenAI é recomendado para o processamento rápido de ficheiros de áudio individuais. O modelo Whisper por meio do Azure AI Speech (transcrição em lote) é recomendado para processamento em lote de arquivos grandes. Para obter mais informações, consulte Modelo de sussurro por meio da transcrição em lote do Azure AI Speech ou via Azure OpenAI?	Recomendado para processamento em lote de arquivos grandes, diarização e carimbos de data/hora em nível de palavra.
Transcrição de gravações de chamadas telefônicas e análises, como resumo de chamadas, sentimento, tópicos-chave e insights personalizados.	Disponível	Recomendado
Transcrição e análise em tempo real para ajudar os agentes de call center com perguntas dos clientes.	Não disponível	Recomendado
Transcrição de gravações e análises de reuniões, como resumo da reunião, capítulos da reunião e extração de itens de ação.	Disponível	Recomendado
Entrada de texto em tempo real e geração de documentos através de ditado de voz.	Não disponível	Recomendado
Agente de voz do contact center: roteamento de chamadas e resposta de voz interativa para call centers.	Disponível	Recomendado
Assistente de voz: assistente de voz específico da aplicação para um descodificador, aplicação móvel, automóvel e outros cenários.	Disponível	Recomendado
Avaliação da pronúncia: Avaliar a pronúncia da voz de um orador.	Não disponível	Recomendado
Traduza áudio ao vivo de um idioma para outro.	Não disponível	Recomendado através da API de tradução de voz.
Traduza áudio pré-gravado de outros idiomas para o inglês.	Recomendado	Também disponível através da API de tradução de voz.
Traduza áudio pré-gravado para outros idiomas além do inglês.	Não disponível	Recomendado através da API de tradução de voz.

Modelo de sussurro através do Azure AI Speech ou através do Azure OpenAI?

Se você decidir usar o modelo Whisper, você tem duas opções. Você pode escolher se deseja usar o Modelo Whisper por meio do Azure OpenAI ou por meio do Azure AI Speech (transcrição em lote). Em ambos os casos, a legibilidade do texto transcrito é a mesma.

O Whisper Model via Azure OpenAI pode ser melhor para:

Transcreva rapidamente ficheiros de áudio, um de cada vez.
Traduza áudio de outros idiomas para o inglês. Você pode inserir áudio em idiomas mistos e a saída está em inglês.
Forneça um prompt ao modelo para orientar a saída.
Formatos de ficheiro suportados: mp3, mp4, mpweg, mpga, m4a, wav e webm.
Somente caractere ASCII suportado para nome de arquivo.

O modelo Whisper por meio da transcrição em lote do Azure AI Speech pode ser melhor para:

Transcrever ficheiros com mais de 25MB (até 1GB). O limite de tamanho de arquivo para o modelo do Azure OpenAI Whisper é de 25 MB.
Transcrevendo grandes lotes de arquivos de áudio.
Diarização para distinguir entre os diferentes oradores que participam na conversa. O serviço de Fala fornece informações sobre qual orador estava falando uma parte específica da fala transcrita. O modelo Whisper através do Azure OpenAI não suporta diarização.
Carimbos de data/hora no nível da palavra
Formatos de ficheiro suportados: mp3, wav e ogg.

O apoio regional é outra consideração.

O modelo Whisper através do Azure OpenAI está disponível nas seguintes regiões: Leste dos EUA 2, Sul da Índia, Centro-Norte, Leste da Noruega, Suécia Central, Suíça Norte e Europa Ocidental.
O modelo Whisper através do Azure AI Speech está disponível nas seguintes regiões: Leste da Austrália, Leste dos EUA, Centro-Norte dos EUA, Centro-Sul dos EUA, Sudeste Asiático e Europa Ocidental.

Partilhar via

O que é o modelo Whisper?

Modelo de sussurro ou modelos de Fala do Azure AI

Modelo de sussurro através do Azure AI Speech ou através do Azure OpenAI?

Conteúdos relacionados

Comentários

Recursos adicionais