O que é Serviço de fala?

2025-07-10

O serviço de Fala fornece recursos de conversão de fala em texto e conversão de texto em fala com um Recurso de Fala. Você pode transcrever a conversão de fala em texto com alta precisão, produzir vozes com sonoridade natural para conversão de texto em fala, traduzir áudio falado e usar o reconhecimento de locutor durante conversas.

Imagem de blocos que realçam alguns recursos do serviço de Fala.

Crie vozes personalizadas, adicione palavras específicas ao vocabulário base ou crie seus próprios modelos. Execute a Fala em qualquer lugar, seja na nuvem ou na borda em contêineres. É fácil habilitar fala em seus aplicativos, ferramentas e dispositivos com a CLI de Fala, SDK de Fala e APIs REST.

A Fala está disponível para muitos idiomas, regiões e pontos de preço.

Cenários de Fala

Cenários comuns para utilizar a Fala incluem os seguintes:

Legendas: aprenda a sincronizar legendas com seu áudio de entrada, aplicar filtros de palavrões, obter resultados parciais, aplicar personalizações e identificar idiomas falados para cenários multilíngues.
Criação de conteúdo de áudio: você pode usar vozes neurais para tornar as interações com chatbots e agentes de voz mais naturais e envolventes, converter textos digitais como livros eletrônicos em audiolivros e aprimorar sistemas de navegação no carro.
Call Center: transcreva chamadas em tempo real ou processe um lote de chamadas, além de redigir informações de identificação pessoal e extrair insights como sentimento para ajudar no caso de uso de call center.
Aprendizado de idioma: forneça comentários de avaliação de pronúncia para alunos de idiomas, dê suporte à transcrição em tempo real para conversas de aprendizado remoto e leia em voz alta materiais de ensino com vozes neurais.
Voz ao vivo: crie interfaces de conversação naturais e humanas para aplicativos e experiências. O recurso de voz ao vivo fornece interação rápida e confiável entre uma implementação humana e de um agente.

A Microsoft usa a Fala em muitos cenários, como em legendas do Teams, em ditados do Office 365 e na leitura em voz alta do navegador Microsoft Edge.

Imagem mostrando logotipos de produtos da Microsoft em que o serviço de Fala é usado.

Recursos de Fala

Essas seções resumem os recursos de Fala com links para obter mais informações.

Conversão de fala em texto

Use a conversão de fala em texto para transcrever áudio em texto, seja em tempo real ou de maneira assíncrona com a transcrição em lote.

Dica

Você pode experimentar a conversão de fala em texto em tempo real no Speech Studio sem inscrever-se ou gravar qualquer código.

Converta em textos os áudios de uma variedade de fontes, como microfones, arquivos de áudio e armazenamentos de blobs. Use a diarização de locutor para determinar quem disse o quê e quando. Obtenha transcrições legíveis com formatação e pontuação automáticas.

O modelo base pode não ser suficiente em caso de ruídos ambientes no áudio ou de muitos jargões específicos do setor ou domínio. Nesses cenários, crie e treine modelos de fala personalizados com dados acústicos, de linguagem e de pronúncia. Os modelos de fala personalizados são privados e podem oferecer uma vantagem competitiva.

Conversão de fala em texto em tempo real

Com o reconhecimento de fala em tempo real, o áudio é transcrito à medida que a fala é reconhecida de um microfone ou arquivo. Use a conversão de fala em texto em tempo real para aplicativos que precisam transcrever áudio em tempo real, como por exemplo:

Transcrições ou legendas para reuniões ao vivo
Diarização
Avaliação de pronúncia
Assistência dos agentes do centro de contato
Ditado
Agentes de voz

API de transcrição rápida

A API de transcrição rápida é usada para transcrever arquivos de áudio, retornando o resultado de forma síncrona e muito mais rápido do que com o áudio em tempo real. Use a transcrição rápida em cenários nos quais você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como, por exemplo:

Transcrição rápida de áudio ou vídeo, legendas e edição.
Tradução de vídeo

Para começar a usar a transcrição rápida, confira usar a API de transcrição rápida.

Transcrição de lote

A transcrição em lote é usada para transcrever um grande volume de dados de áudio no armazenamento. Você pode apontar para arquivos de áudio com um URI de assinatura de acesso compartilhado (SAS) e receber resultados de transcrição de forma assíncrona. Use a transcrição em lote para aplicativos que precisam transcrever áudios em massa, como:

Transcrições, legendas ou legendas para áudio pré-gravado
Análise pós-chamada da central de atendimento
Diarização

Conversão de texto em fala

Com a conversão de texto em fala, é possível converter textos de entrada em uma fala sintetizada e semelhante à humana. Use vozes neurais, que são semelhantes a vozes humanas das plataformas de redes neurais profundas. Use o SSML (Speech Synthesis Markup Language) para ajustar o tom, a pronúncia, a velocidade de fala, o volume e muito mais.

Voz padrão: vozes altamente naturais e prontas para uso. Verifique os exemplos de voz padrão da Galeria de Voz e determine a voz certa para suas necessidades comerciais.
Voz personalizada: Além das vozes padrão que saem da caixa, você também pode criar uma voz personalizada que seja reconhecível e exclusiva para sua marca ou produto. As vozes personalizadas são privadas e podem oferecer uma vantagem competitiva. Verifique os exemplos de voz personalizados aqui.

Tradução de fala

A tradução de fala possibilita a tradução de fala em tempo real e em vários idiomas para seus aplicativos, ferramentas e dispositivos. Use esse recurso para tradução de fala para fala e da conversão de fala em texto.

Identificação de idioma

A identificação de idioma é usada para identificar os idiomas falados em um áudio quando comparado com uma lista de idiomas com suporte. Use a identificação de idioma por si só, com conversão de fala em texto ou com tradução de fala.

Reconhecimento de locutor

O reconhecimento de locutor fornece algoritmos que verificam e identificam os locutores por suas características de voz exclusivas. O Reconhecimento de Locutor é usado para responder à pergunta "Quem está falando?".

Avaliação de pronúncia

A avaliação de pronúncia avalia a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado. Com a avaliação de pronúncia, aprendizes de idiomas podem praticar, obter comentários instantâneos e aprimorar sua pronúncia para que possam falar e fazer apresentações com confiança.

Reconhecimento de intenção

Reconhecimento de intenção: use a conversão de fala em texto com a compreensão da linguagem coloquial para derivar as intenções do usuário a partir da fala transcrita e agir de acordo com os comandos de voz.

Entrega e presença

Você pode implantar recursos de Fala de IA do Azure na nuvem ou no local.

Com os contêineres, é possível aproximar o serviço de seus dados para fins de conformidade, segurança ou outras razões operacionais.

A implantação do serviço de Fala em nuvens soberanas está disponível para algumas entidades governamentais e seus parceiros. Por exemplo, a nuvem Azure Governamental está disponível para clientes do governo dos EUA e seus parceiros. O Microsoft Azure operado pela nuvem da 21Vianet está disponível para organizações com presença comercial na China. Para saber mais, confira Nuvens soberanas.

Diagrama mostrando onde o serviço de Fala pode ser implantado e acessado.

Usar a Fala em seu aplicativo

O Speech Studio é um conjunto de ferramentas baseadas em interface do usuário para criar e integrar recursos do serviço de Fala de IA do Azure em seus aplicativos. Você cria projetos no Speech Studio ao usar uma abordagem sem código e fazer referência a esses ativos nos seus aplicativos usando o SDK de Fala, a CLI de Fala ou as APIs REST.

A CLI de Fala é uma ferramenta de linha de comando para uso do serviço de Fala sem necessidade de codificação. A maioria dos recursos do SDK de Fala estão disponíveis na CLI de Fala, e alguns recursos e personalizações avançados estão simplificados na CLI de Fala.

O SDK de Fala expõe muitas das funcionalidades do serviço de Fala que podem ser usadas ao desenvolver aplicativos habilitados para fala. O SDK de Fala está disponível em muitas linguagens de programação e em todas as plataformas.

Em alguns casos, não é possível ou aconselhável usar o SDK de Fala. Nesses cenários, use APIs REST para acessar o serviço de Fala. Por exemplo, use APIs REST de transcrição em lote e APIs REST de reconhecimento de locutor.

Introdução

Oferecemos guias de início rápido relacionados às linguagens de programação mais populares. Cada guia de início rápido é projetado para ensinar a você padrões de design básicos e para você executar o seu código em menos de dez minutos. Confira a lista a seguir para obter o guia de início rápido para cada recurso:

Exemplos de código

Há um código de exemplo disponível no GitHub para o serviço de Fala. Esses exemplos abordam cenários comuns, como ler áudio de um arquivo ou fluxo, reconhecimento contínuo e único e trabalho com modelos personalizados. Use estes links para exibir exemplos de SDK e REST:

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e implantação de IA responsável em seus sistemas.

Compartilhar via

O que é Serviço de fala?

Cenários de Fala

Recursos de Fala

Conversão de fala em texto

Conversão de fala em texto em tempo real

API de transcrição rápida

Transcrição de lote

Conversão de texto em fala

Tradução de fala

Identificação de idioma

Reconhecimento de locutor

Avaliação de pronúncia

Reconhecimento de intenção

Entrega e presença

Usar a Fala em seu aplicativo

Introdução

Exemplos de código

IA responsável

Conversão de fala em texto

Avaliação de Pronúncia

Voz personalizada

Reconhecimento do Locutor

Próximas etapas

Comentários

Recursos adicionais