Partilhar via


O que é o modelo Whisper?

O modelo Whisper é um modelo de fala para texto da OpenAI que você pode usar para transcrever arquivos de áudio. O modelo é treinado em um grande conjunto de dados de áudio e texto em inglês. O modelo é otimizado para transcrever arquivos de áudio que contêm fala em inglês. O modelo também pode ser usado para transcrever arquivos de áudio que contêm fala em outros idiomas. A saída do modelo é texto em inglês.

Os modelos Whisper estão disponíveis através do Serviço OpenAI do Azure ou através do Azure AI Speech. Os recursos diferem para essas ofertas. No Azure AI Speech, o Whisper é apenas um dos vários modelos de fala para texto que você pode usar.

Poderá perguntar:

  • O Modelo de Sussurro é uma boa escolha para o meu cenário ou um modelo de Fala de IA do Azure é melhor? Quais são as comparações de API entre os dois tipos de modelos?

  • Se eu quiser usar o Modelo Whisper, devo usá-lo por meio do Serviço OpenAI do Azure ou do Azure AI Speech? Quais são os cenários que me orientam a usar um ou outro?

Modelo de sussurro ou modelos de Fala do Azure AI

O modelo Whisper ou os modelos Azure AI Speech são apropriados dependendo dos seus cenários. Se você decidir usar o Azure AI Speech, poderá escolher entre vários modelos, incluindo o modelo Whisper. A tabela a seguir compara opções com recomendações sobre por onde começar.

Cenário Modelo de sussurro Modelos de Fala do Azure AI
Transcrições, legendas e legendas em tempo real para áudio e vídeo. Não disponível Recomendado
Transcrições, legendas e legendas para áudio e vídeo pré-gravados. O modelo Whisper através do Azure OpenAI é recomendado para o processamento rápido de ficheiros de áudio individuais. O modelo Whisper por meio do Azure AI Speech é recomendado para processamento em lote de arquivos grandes. Para obter mais informações, consulte Modelo de sussurro por meio do Azure AI Speech ou do Azure OpenAI Service? Recomendado para processamento em lote de arquivos grandes, diarização e carimbos de data/hora em nível de palavra.
Transcrição de gravações de chamadas telefônicas e análises, como resumo de chamadas, sentimento, tópicos-chave e insights personalizados. Disponível Recomendado
Transcrição e análise em tempo real para ajudar os agentes de call center com perguntas dos clientes. Não disponível Recomendado
Transcrição de gravações e análises de reuniões, como resumo da reunião, capítulos da reunião e extração de itens de ação. Disponível Recomendado
Entrada de texto em tempo real e geração de documentos através de ditado de voz. Não disponível Recomendado
Agente de voz do contact center: roteamento de chamadas e resposta de voz interativa para call centers. Disponível Recomendado
Assistente de voz: assistente de voz específico da aplicação para um descodificador, aplicação móvel, automóvel e outros cenários. Disponível Recomendado
Avaliação da pronúncia: Avaliar a pronúncia da voz de um orador. Não disponível Recomendado
Traduza áudio ao vivo de um idioma para outro. Não disponível Recomendado através da API de tradução de fala
Traduza áudio pré-gravado de outros idiomas para o inglês. Recomendado Disponível através da API de tradução de voz
Traduza áudio pré-gravado para outros idiomas além do inglês. Não disponível Recomendado através da API de tradução de fala

Modelo de sussurro através do Azure AI Speech ou através do Azure OpenAI Service?

Se você decidir usar o modelo Whisper, você tem duas opções. Você pode escolher se deseja usar o Modelo de Sussurro por meio do Azure OpenAI ou por meio do Azure AI Speech. Em ambos os casos, a legibilidade do texto transcrito é a mesma. Você pode inserir áudio em idiomas mistos e a saída está em inglês.

O modelo Whisper por meio do Serviço OpenAI do Azure pode ser melhor para:

  • Transcrever rapidamente ficheiros de áudio, um de cada vez
  • Traduzir áudio de outros idiomas para Português
  • Fornecer um prompt ao modelo para orientar a saída
  • Formatos de ficheiro suportados: mp3, mp4, mpweg, mpga, m4a, wav e webm

O Modelo de Sussurro por meio do Azure AI Speech pode ser melhor para:

  • Transcrever ficheiros com mais de 25MB (até 1GB). O limite de tamanho de arquivo para o modelo do Azure OpenAI Whisper é de 25 MB.
  • Transcrevendo grandes lotes de arquivos de áudio
  • Diarização para distinguir entre os diferentes oradores que participam na conversa. O serviço de Fala fornece informações sobre qual orador estava falando uma parte específica da fala transcrita. O modelo Whisper através do Azure OpenAI não suporta diarização.
  • Carimbos de data/hora no nível da palavra
  • Formatos de ficheiro suportados: mp3, wav e ogg
  • Personalização do modelo base Whisper para melhorar a precisão do seu cenário (em breve)

O apoio regional é outra consideração.

  • O modelo Whisper através do Azure OpenAI Service está disponível nas seguintes regiões: EastUS 2, India South, North Central, Norway East, Sweden Central e West Europe.
  • O modelo Whisper através do Azure AI Speech está disponível nas seguintes regiões: Leste da Austrália, Leste dos EUA, Centro-Norte dos EUA, Centro-Sul dos EUA, Sudeste Asiático, Sul do Reino Unido e Europa Ocidental.

Próximos passos