O que é conversão de fala em texto?
O serviço Fala de IA do Azure oferece recursos avançados de conversão de fala em texto. Esse recurso dá suporte à transcrição em tempo real e em lote, fornecendo soluções versáteis para a conversão de fluxos de áudio em texto.
Principais recursos
O serviço de conversão de fala em texto oferece os seguintes recursos principais:
- Transcrição em tempo real: Transcrição instantânea com resultados intermediários para entradas de áudio ao vivo.
- Transcrição rápida: Saída síncrona mais rápida para situações com latência previsível.
- Transcrição em lote: Processamento eficiente para grandes volumes de áudio pré-gravado.
- Fala personalizada: Modelos com precisão aprimorada para domínios e condições específicos.
Conversão de fala em texto em tempo real
A transcrição de conversão de fala em texto em tempo real transcreve o áudio à medida que ele é reconhecido por um microfone ou arquivo. É ideal para aplicativos que exigem transcrição imediata, como:
- Transcrições, legendas ou legendas para reuniões ao vivo: Transcrição de áudio em tempo real para acessibilidade e manutenção de registros.
- Diarização: Identificação e distinção entre diferentes falantes no áudio.
- Avaliação de pronúncia: Avaliação e fornecimento de comentários sobre a precisão da pronúncia.
- Assistência a agentes de call center: Fornecimento de transcrição em tempo real para auxiliar os representantes de atendimento ao cliente.
- Ditado: Transcrição de palavras faladas em texto escrito para fins de documentação.
- Agentes de voz: Habilitando sistemas interativos de resposta por voz para transcrever consultas e comandos do usuário.
A conversão de fala em texto em tempo real pode ser acessada por meio do SDK de Fala, CLI de Fala e API REST, permitindo a integração em vários aplicativos e fluxos de trabalho. A conversão de fala em texto em tempo real está disponível por meio do SDK de Fala, da CLI de Fala e de APIs REST, como a API de Transcrição Rápida.
Transcrição Rápida (versão prévia)
A API de Transcrição Rápida é usada para transcrever arquivos de áudio com resultados de forma síncrona e mais rápida do que o áudio em tempo real. Use a Transcrição Rápida nos cenários de que você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como:
- Transcrição rápida de áudio ou vídeo e legendas: Obtenha rapidamente a transcrição de um arquivo de áudio ou vídeo inteiro de uma só vez.
- Tradução de vídeo: Obtenha imediatamente novas legendas para um vídeo se o áudio estiver em idiomas diferentes.
Observação
A API de Transcrição Rápida só está disponível por meio da API REST da conversão de fala em texto versão 2024-05-15-preview ou posterior.
Para começar a usar a Transcrição Rápida, confira Usar a API de Transcrição Rápida (versão prévia).
Transcrição de lote API
A transcrição em lote foi projetada para transcrever grandes quantidades de áudio armazenadas em arquivos. Esse método processa o áudio de forma assíncrona e é adequado para:
- Transcrições, legendas ou subtítulos para áudio pré-gravado: Convertendo conteúdo de áudio armazenado em texto.
- Análise pós-chamada do Contact Center: Análise de chamadas gravadas para extrair insights valiosos.
- Diarização: Diferenciação entre alto-falantes em áudio gravado.
A transcrição em lote está disponível por meio de:
API REST de conversão de fala em texto: Facilita o processamento em lote com a flexibilidade das chamadas RESTful. Para começar, consulte Como usar a transcrição em lote e Exemplos de transcrição em lote.
CLI de Fala: Dá suporte à transcrição em tempo real e em lote, facilitando o gerenciamento das tarefas de transcrição. Para obter ajuda da CLI de Fala com as transcrições em lote, execute o comando a seguir:
spx help batch transcription
Fala Personalizada
Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote.
Dica
Um ponto de extremidade de implantação hospedado não é necessário para usar a fala personalizada com a API de transcrição em lote. Você poderá conservar recursos se o modelo de fala personalizado só for usado para transcrição em lote. Para obter mais informações, confira Preços do serviço de Fala.
Pronto para uso, o reconhecimento de fala utiliza um Modelo de Linguagem Universal como um modelo base treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo básico é pré-treinado com dialetos e fonética que representam vários domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente de cada linguagem com suporte é usado por padrão. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.
A fala personalizada permite que você adapte o modelo de reconhecimento de fala para atender melhor às necessidades específicas do seu aplicativo. Isso pode ser particularmente útil para:
- Melhorando o reconhecimento de vocabulário específico de domínio: Treine o modelo com dados de texto relevantes para o seu campo.
- Melhorar a precisão para condições de áudio específicas: Use dados de áudio com transcrições de referência para refinar o modelo.
Para obter mais informações sobre fala personalizada, consulte a visão geral da fala personalizada e a documentação da API REST de conversão de fala em texto.
Para obter detalhes sobre as opções de personalização por idioma e localidade, consulte a documentação de suporte de idioma e voz para o serviço de Fala.
Exemplos de uso
Aqui estão alguns exemplos práticos de como você pode utilizar a conversão de fala em texto da IA do Azure:
Caso de uso | Cenário | Solução |
---|---|---|
Transcrições e legendas de reuniões ao vivo | Uma plataforma de eventos virtuais precisa fornecer legendas em tempo real para webinars. | Integre a conversão de fala em texto em tempo real usando o SDK de Fala para transcrever o conteúdo falado em legendas exibidas ao vivo durante o evento. |
Aprimoramento do atendimento ao cliente | Uma central de atendimento deseja auxiliar os agentes fornecendo transcrições em tempo real das chamadas dos clientes. | Use a conversão de fala em texto em tempo real por meio da CLI de Fala para transcrever chamadas, permitindo que os agentes entendam melhor e respondam às consultas dos clientes. |
Legendagem de vídeo | Uma plataforma de hospedagem de vídeo deseja gerar rapidamente um conjunto de legendas para um vídeo. | Use a transcrição rápida para obter rapidamente um conjunto de legendas para o vídeo inteiro. |
Ferramentas educacionais | Uma plataforma de e-learning tem como objetivo fornecer transcrições para palestras em vídeo. | Aplique a transcrição em lote por meio da API REST de conversão de fala em texto para processar vídeos de palestras pré-gravados, gerando transcrições de texto para os alunos. |
Documentação de assistência à saúde | Um prestador de serviços de saúde precisa documentar as consultas dos pacientes. | Use a conversão de fala em texto em tempo real para ditar, permitindo que os profissionais de saúde falem suas anotações e elas sejam transcritas instantaneamente. Use um modelo personalizado para aprimorar o reconhecimento de termos médicos específicos. |
Mídia e entretenimento | Uma empresa de mídia deseja criar legendas para um grande arquivo de vídeos. | Use a transcrição em lote para processar os arquivos de vídeo em massa, gerando legendas precisas para cada vídeo. |
Pesquisa de mercado | Uma empresa de pesquisa de mercado precisa analisar os comentários dos clientes a partir de gravações de áudio. | Use a transcrição em lote para converter comentários de áudio em texto, facilitando a análise e a extração de insights. |
IA responsável
Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e implantação de IA responsável em seus sistemas.
- Nota de transparência e casos de uso
- Características e limitações
- Integração e uso responsável
- Dados, privacidade e segurança
Conteúdo relacionado
- Introdução à conversão de fala em texto
- Criar uma transcrição em lote
- Para obter informações detalhadas sobre preços, visite a página Preços do serviço de fala.