Escolha uma tecnologia de geração e reconhecimento de fala da IA do Azure

2025-06-21

Os serviços de IA do Azure ajudam os designers e programadores de carga de trabalho a criar aplicações inteligentes, inovadoras, prontas para o mercado e responsáveis com APIs e modelos prontos a utilizar, pré-construídos e personalizáveis.

Este artigo aborda os serviços de IA que fornecem recursos de geração e reconhecimento de fala, como conversões de fala para texto e texto para fala, tradução de áudio e reconhecimento de alto-falante. Inclui também apoio à leitura para pessoas com diferenças de aprendizagem.

Nota

Para reunir informações sobre termos ou frases ou obter uma análise contextual detalhada da linguagem falada ou escrita, consulte Escolher uma tecnologia de processamento de linguagem direcionada da IA do Azure.

Serviços

Os seguintes serviços de IA podem fornecer recursos de reconhecimento e geração de fala para sua carga de trabalho.

O Microsoft Azure AI Speech fornece processamento de linguagem natural para análise de texto.
- Utilização Fala quando você precisa transcrever ou traduzir a fala falada e identificar os oradores em uma conversa. Você também pode usar o Speech como uma alternativa de baixo custo para geração de fala com som natural em comparação com o sistema Whisper de maior qualidade nos modelos OpenAI.
- Não utilize Fala para bate-papo, resumo de conteúdo, moderação ou orientação de usuários através de scripts. Em vez disso, use outros modelos para essas coisas.
O Immersive Reader é uma ferramenta que implementa técnicas comprovadas para melhorar a compreensão de leitura para leitores emergentes, estudantes de línguas e pessoas com diferenças de aprendizagem.
- Utilização Leitor imersivo para proporcionar uma experiência de legibilidade melhorada adaptada a estudantes de línguas ou pessoas com diferenças de aprendizagem.
- Não utilize Leitor imersivo para casos de uso tradicionais de conversão de texto em fala.

Discurso

O Speech fornece recursos de fala para texto e de texto para fala com um recurso de fala. Você pode transcrever fala para texto com alta precisão, produzir vozes de texto para fala com som natural, traduzir áudio falado e usar o reconhecimento de alto-falante durante as conversas. Crie vozes personalizadas, adicione palavras específicas ao vocabulário de base ou compile os seus próprios modelos. Execute o Speech em qualquer lugar, seja na nuvem ou na borda em contêineres.

A fala está disponível para vários idiomas e regiões.

Capacidades

A tabela a seguir fornece uma lista de recursos disponíveis no Speech.

Capacidade	Descrição
Transcrição em lote	Transcreve uma grande quantidade de dados de áudio armazenados. Tanto a API REST de fala para texto quanto a CLI de fala suportam transcrição em lote.
Reconhecimento de intenções	Uma intenção é algo que o usuário quer fazer, como reservar um voo, verificar o tempo ou fazer uma chamada. O reconhecimento de intenção permite que seus aplicativos, ferramentas e dispositivos determinem o que o usuário deseja iniciar ou fazer com base nas opções. Você define a intenção do usuário no reconhecedor de intenção ou no modelo de compreensão de linguagem conversacional.
Avaliação da pronúncia	Avalia a pronúncia da fala e dá feedback aos oradores sobre a precisão e fluência do áudio falado.
Reconhecimento de oradores	O reconhecimento de alto-falantes pode ajudar a determinar quem está falando em um clipe de áudio. O serviço verifica e identifica os alto-falantes através de suas características únicas de voz usando a biometria de voz.
Conversão de voz em texto	Converte fluxos de áudio em texto em tempo real ou em processamento em lote.
Conversão de texto em fala	Permite que seus aplicativos, ferramentas ou dispositivos convertam texto em fala sintetizada semelhante a humana.
Tradução de fala	Fornece tradução de fala para fala em vários idiomas e de fala para texto de fluxos de áudio.
Tradução de vídeo	Traduz e gera vídeos em vários idiomas automaticamente.

Casos de utilização

A tabela a seguir descreve algumas das maneiras de usar a fala.

Caso de utilização	Capacidade de utilização	Descrição
Criação de conteúdo de áudio	Conversão de voz em texto	Torne as interações com chatbots e assistentes de voz mais naturais e envolventes usando vozes neurais. Converta textos digitais, como livros eletrónicos, em audiolivros e melhore os sistemas de navegação automóvel.
Transcrição de call center	Conversão de voz em texto	Transcreva chamadas em tempo real ou processe um lote de chamadas, retire informações de identificação pessoal e extraia informações como sentimento para ajudar com seu caso de uso de call center.
Legendas	Conversão de voz em texto	Sincronize legendas com o áudio de entrada, aplique filtros de palavrões, obtenha resultados parciais, aplique personalizações e identifique idiomas falados para cenários multilíngues.
Aprendizagem de línguas	Conversão de voz em texto	Forneça feedback de avaliação de pronúncia para alunos de idiomas, suporte a transcrição em tempo real para conversas de aprendizado remoto e leia materiais de ensino em voz alta com vozes neurais.
Assistentes de voz	Conversão de texto em voz	Crie interfaces de conversação naturais e humanas para aplicações e experiências. O recurso de assistente de voz fornece interação rápida e confiável entre um dispositivo e uma implementação de assistente.

Leitor Imersivo

O Immersive Reader, parte dos serviços de IA, é uma ferramenta projetada de forma inclusiva que implementa técnicas comprovadas para melhorar a compreensão de leitura para novos leitores, estudantes de idiomas e pessoas com diferenças de aprendizagem, como dislexia. Com a biblioteca de cliente do Immersive Reader, você pode usar a mesma tecnologia usada no Microsoft Word e no Microsoft OneNote para fornecer uma experiência aprimorada para os usuários da sua carga de trabalho.

Capacidades

Os recursos a seguir estão disponíveis para sua carga de trabalho para ajudar os usuários a atingir suas metas de compreensão de leitura.

Isole o conteúdo para melhorar a legibilidade.
Exiba imagens para palavras e termos comuns.
Ajude a entender partes da fala e da gramática destacando verbos, substantivos e pronomes.
Leia o conteúdo em voz alta, como o texto selecionado pelo usuário na interface do usuário da sua carga de trabalho.
Traduza conteúdo para vários idiomas em tempo real. Este método ajuda a melhorar a compreensão para os leitores que aprendem uma nova língua.
Divida as palavras em sílabas para melhorar a legibilidade ou para soar novas palavras.

Partilhar via

Escolha uma tecnologia de geração e reconhecimento de fala da IA do Azure

Serviços

Discurso

Capacidades

Casos de utilização

Leitor Imersivo

Capacidades

Próximos passos

Recursos relacionados

Comentários

Recursos adicionais