Compartilhar via


Escolha uma tecnologia de geração e reconhecimento de fala de IA do Azure

Os serviços de IA do Azure ajudam designers e desenvolvedores de carga de trabalho a criar aplicativos inteligentes, de ponta, prontos para o mercado e responsáveis com APIs e modelos prontos para uso, pré-criados e personalizáveis.

Este artigo aborda os serviços de IA que fornecem recursos de reconhecimento e geração de fala, como conversão de fala em texto e texto em fala, tradução de áudio e reconhecimento de locutor. Também inclui suporte de leitura para pessoas com diferenças de aprendizagem.

Observação

Para coletar insights sobre termos, frases ou obter uma análise contextual detalhada da linguagem falada ou escrita, consulte Escolher uma tecnologia de processamento de linguagem direcionada da IA do Azure.

Serviços

Os serviços de IA a seguir podem fornecer recursos de reconhecimento e geração de fala para sua carga de trabalho.

  • O Microsoft Azure AI Speech fornece processamento de linguagem natural para análise de texto.

    • Usar Fala quando você precisa transcrever ou traduzir fala falada e identificar falantes em uma conversa. Você também pode usar o Speech como uma alternativa de baixo custo para geração de fala com som natural em comparação com o sistema Whisper de alta qualidade nos modelos OpenAI.

    • Não use Fala para bate-papo, resumo de conteúdo, moderação ou orientação de usuários por meio de scripts. Em vez disso, use outros modelos para esses casos.

  • A Leitura Avançada é uma ferramenta que implementa técnicas comprovadas para melhorar a compreensão de leitura para leitores iniciantes, aprendizes de um novo idioma e pessoas com diferenças de aprendizado.

    • Use o Leitor Imersivo para proporcionar uma experiência de leitura melhorada e adaptada para aprendizes de idiomas ou pessoas com diferenças de aprendizado.

    • Não use Leitura Avançada para casos de uso tradicionais de conversão de texto em fala.

Discurso

A Fala fornece recursos de conversão de fala em texto e conversão de texto em fala com um recurso de Fala. Você pode transcrever fala para texto com alta precisão, produzir vozes de conversão de texto em fala com som natural, traduzir áudio falado e usar o reconhecimento de locutor durante as conversas. Crie vozes personalizadas, adicione palavras específicas ao vocabulário base ou crie seus próprios modelos. Execute a Fala em qualquer lugar, seja na nuvem ou na borda em contêineres.

A fala está disponível para vários idiomas e regiões.

Capacidades

A tabela a seguir fornece uma lista de recursos disponíveis na Fala.

Capacidade Descrição
Transcrição em lote Transcreve uma grande quantidade de dados de áudio no armazenamento. A API REST de conversão de fala em texto e a CLI de fala dão suporte à transcrição em lote.
Reconhecimento de intenção Uma intenção é algo que o usuário deseja fazer, como reservar um voo, verificar o clima ou fazer uma chamada. O reconhecimento de intenção permite que seus aplicativos, ferramentas e dispositivos determinem o que o usuário deseja iniciar ou fazer com base nas opções. Você define a intenção do usuário no modelo de reconhecimento de intenção ou de reconhecimento vocal coloquial.
Avaliação de pronúncia Avalia a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado.
Reconhecimento de Locutor O reconhecimento de locutor pode ajudar a determinar quem está falando em um clipe de áudio. O serviço verifica e identifica os falantes por meio de suas características de voz exclusivas usando a biometria de voz.
Conversão de fala em texto Converte fluxos de áudio em texto em tempo real ou em processamento em lote.
Conversão de texto em fala Permite que seus aplicativos, ferramentas ou dispositivos convertam texto em fala sintetizada semelhante à humana.
Tradução de fala Fornece tradução de fala para fala e fala para texto em vários idiomas de fluxos de áudio.
Tradução de vídeo Traduz e gera vídeos em vários idiomas automaticamente.

Casos de uso

A tabela a seguir descreve algumas das maneiras pelas quais você pode usar a Fala.

Caso de uso Capacidade de usar Descrição
Criação de conteúdo de áudio Conversão de fala em texto Torne as interações com chatbots e assistentes de voz mais naturais e envolventes usando vozes neurais. Converta textos digitais, como e-books, em audiolivros e aprimore os sistemas de navegação no carro.
Transcrição de call center Conversão de fala em texto Transcreva chamadas em tempo real ou processe um lote de chamadas, edite informações de identificação pessoal e extraia insights como sentimento para ajudar no caso de uso do call center.
Legendas Conversão de fala em texto Sincronize as legendas com o áudio de entrada, aplique filtros de palavrões, obtenha resultados parciais, aplique personalizações e identifique os idiomas falados em cenários multilíngues.
Aprendizado de idiomas Conversão de fala em texto Forneça comentários de avaliação de pronúncia aos aprendizes de idiomas, ofereça suporte à transcrição em tempo real para conversas de aprendizado remoto e leia em voz alta materiais didáticos com vozes neurais.
Assistentes de voz Conversão de texto em fala Crie interfaces de conversação naturais e humanas para aplicativos e experiências. O recurso de assistente de voz oferece interação rápida e confiável entre um dispositivo e uma implementação de assistente.

Leitor Imersivo

A Leitura Avançada, parte dos serviços de IA, é uma ferramenta projetada de forma inclusiva que implementa técnicas comprovadas para melhorar a compreensão de leitura para novos leitores, alunos de idiomas e pessoas com diferenças de aprendizagem, como dislexia. Com a biblioteca de clientes da Leitura Avançada, você pode usar a mesma tecnologia usada no Microsoft Word e no Microsoft OneNote para fornecer uma experiência aprimorada para os usuários da carga de trabalho.

Capacidades

Os recursos a seguir estão disponíveis para sua carga de trabalho para ajudar os usuários a atingir suas metas de compreensão de leitura.

  • Isole o conteúdo para melhorar a legibilidade.

  • Exiba imagens para palavras e termos comuns.

  • Ajude a entender partes do discurso e da gramática destacando verbos, substantivos e pronomes.

  • Leia o conteúdo em voz alta, como texto selecionado pelo usuário na interface do usuário da carga de trabalho.

  • Traduza conteúdo para vários idiomas em tempo real. Este método ajuda a melhorar a compreensão dos leitores que estão aprendendo um novo idioma.

  • Divida as palavras em sílabas para melhorar a legibilidade ou para pronunciar novas palavras.

Próximas etapas