O que é Serviço de fala?
O serviço de Fala fornece capacidades de reconhecimento de fala e de conversão de texto em fala com um recurso de Fala. Você pode transcrever o reconhecimento de fala com alta precisão, produzir vozes com sonoridade natural para conversão de texto em fala, traduzir áudio falado e usar o reconhecimento de locutor durante conversas.
Crie vozes personalizadas, adicione palavras específicas ao vocabulário base ou crie seus próprios modelos. Execute a Fala em qualquer lugar, seja na nuvem ou na borda em contêineres. É fácil habilitar fala em seus aplicativos, ferramentas e dispositivos com a CLI de Fala, SDK de Fala e APIs REST.
A Fala está disponível para muitos idiomas, regiões e pontos de preço.
Cenários de Fala
Cenários comuns para utilizar a Fala incluem os seguintes:
- Legendas: aprenda a sincronizar legendas com seu áudio de entrada, aplicar filtros de palavrões, obter resultados parciais, aplicar personalizações e identificar idiomas falados para cenários multilíngues.
- Criação de Conteúdo de Áudio: as vozes neurais podem ser usadas para interagir com chatbots e assistentes de voz de maneira mais natural e participativa, além de converter textos digitais, como livros eletrônicos, em audiolivros e aprimorar sistemas de navegação automotiva.
- Call Center: transcreva chamadas em tempo real ou processe um lote de chamadas, além de redigir informações de identificação pessoal e extrair insights como sentimento para ajudar no caso de uso de call center.
- Aprendizado de idioma: forneça comentários de avaliação de pronúncia para alunos de idiomas, dê suporte à transcrição em tempo real para conversas de aprendizado remoto e leia em voz alta materiais de ensino com vozes neurais.
- Assistentes de voz: crie interfaces de conversação natural, semelhante à humana, para os aplicativos e experiências deles. O recurso de assistente de voz fornece interação rápida e confiável entre um dispositivo e uma implementação de assistente.
A Microsoft usa a Fala em muitos cenários, como em legendas do Teams, em ditados do Office 365 e na leitura em voz alta do navegador Microsoft Edge.
Recursos de Fala
Essas seções resumem os recursos de Fala com links para obter mais informações.
Conversão de fala em texto
Use o reconhecimento de fala para transcrever áudios em textos, seja em tempo real ou de maneira assíncrona com a transcrição em lote.
Dica
Você pode experimentar o reconhecimento de fala em tempo real no Speech Studio sem inscrever-se ou gravar qualquer código.
Converta em textos os áudios de uma variedade de fontes, como microfones, arquivos de áudio e armazenamentos de blobs. Use a diarização de locutor para determinar quem disse o quê e quando. Obtenha transcrições legíveis com formatação e pontuação automáticas.
O modelo base pode não ser suficiente em caso de ruídos ambientes no áudio ou de muitos jargões específicos do setor ou domínio. Nesses cenários, crie e treine modelos de fala personalizados com dados acústicos, de linguagem e de pronúncia. Os modelos de fala personalizados são privados e podem oferecer uma vantagem competitiva.
Reconhecimento de fala em tempo real
Com o reconhecimento de fala em tempo real, o áudio é transcrito à medida que a fala é reconhecida de um microfone ou arquivo. Use o reconhecimento de fala em tempo real para aplicativos que precisam transcrever áudio em tempo real, como:
- Transcrições ou legendas para reuniões ao vivo
- Diarização
- Avaliação de pronúncia
- Assistência dos agentes do centro de contato
- Ditado
- Agentes de voz
API de Transcrição Rápida (versão prévia)
A API de Transcrição Rápida é usada para transcrever arquivos de áudio com o retorno síncrono e muito mais rápido dos resultados do que com o áudio em tempo real. Use a Transcrição Rápida nos cenários de que você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como:
- Transcrição, legendas e edição rápidas de áudio ou vídeo.
- Tradução de vídeo
Observação
A API de Transcrição Rápida só está disponível por meio da API REST da conversão de fala em texto versão 2024-05-15-preview.
Para começar a usar a Transcrição Rápida, confira Usar a API de Transcrição Rápida (versão prévia).
Transcrição de lote
A transcrição em lote é usada para transcrever um grande volume de dados de áudio no armazenamento. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona. Use a transcrição em lote para aplicativos que precisam transcrever áudios em massa, como:
- Transcrições, legendas ou legendas para áudio pré-gravado
- Análise pós-chamada da central de atendimento
- Diarização
Texto em fala
Com a conversão de texto em fala, é possível converter textos de entrada em uma fala sintetizada e semelhante à humana. Use vozes neurais, que são semelhantes a vozes humanas das plataformas de redes neurais profundas. Use o SSML (Speech Synthesis Markup Language) para ajustar o tom, a pronúncia, a velocidade de fala, o volume e muito mais.
- Voz neural predefinida: vozes altamente naturais prontas para uso. Confira os exemplos de vozes neurais predefinidas da Galeria de vozes e escolha a voz ideal para suas necessidades de negócios.
- Voz neural personalizada: além das vozes neurais predefinidas que são prontas para uso, também é possível criar uma voz neural personalizada exclusiva e reconhecível como sendo da sua marca ou produto. As vozes neurais personalizadas são privadas e podem oferecer uma vantagem competitiva. Confira aqui os exemplos de voz neural personalizada.
Tradução de fala
A tradução de fala possibilita a tradução de fala em tempo real e em vários idiomas para seus aplicativos, ferramentas e dispositivos. Use esse recurso para tradução de fala para fala e da conversão de fala em texto.
Identificação de idioma
A identificação de idioma é usada para identificar os idiomas falados em um áudio quando comparado com uma lista de idiomas com suporte. Use a identificação de idioma por si só, com reconhecimento de fala ou com tradução de fala.
Reconhecimento de locutor
O reconhecimento de locutor fornece algoritmos que verificam e identificam os locutores por suas características de voz exclusivas. O Reconhecimento de Locutor é usado para responder à pergunta "Quem está falando?".
Avaliação de pronúncia
A avaliação de pronúncia avalia a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado. Com a avaliação de pronúncia, aprendizes de idiomas podem praticar, obter comentários instantâneos e aprimorar sua pronúncia para que possam falar e fazer apresentações com confiança.
Reconhecimento de intenção
Reconhecimento de intenção: use o reconhecimento de fala com a compreensão da linguagem coloquial para derivar as intenções do usuário a partir da fala transcrita e agir de acordo com os comandos de voz.
Entrega e presença
É possível implantar recursos de Fala de IA do Azure na nuvem ou no local.
Com os contêineres, é possível aproximar o serviço de seus dados para fins de conformidade, segurança ou outras razões operacionais.
A implantação do serviço de Fala em nuvens soberanas está disponível para algumas entidades governamentais e seus parceiros. Por exemplo, a nuvem Azure Governamental está disponível para clientes do governo dos EUA e seus parceiros. O Microsoft Azure operado pela nuvem da 21Vianet está disponível para organizações com presença comercial na China. Para saber mais, confira Nuvens soberanas.
Usar a Fala em seu aplicativo
O Speech Studio é um conjunto de ferramentas baseadas na interface do usuário para criar e integrar recursos do serviço de Fala de IA do Azure nos seus aplicativos. Você cria projetos no Speech Studio ao usar uma abordagem sem código e fazer referência a esses ativos nos seus aplicativos usando o SDK de Fala, a CLI de Fala ou as APIs REST.
A CLI de Fala é uma ferramenta de linha de comando para uso do serviço de Fala sem necessidade de codificação. A maioria dos recursos do SDK de Fala estão disponíveis na CLI de Fala, e alguns recursos e personalizações avançados estão simplificados na CLI de Fala.
O SDK de Fala expõe muitas das funcionalidades do serviço de Fala que podem ser usadas ao desenvolver aplicativos habilitados para fala. O SDK de Fala está disponível em muitas linguagens de programação e em todas as plataformas.
Em alguns casos, não é possível ou aconselhável usar o SDK de Fala. Nesses cenários, use APIs REST para acessar o serviço de Fala. Por exemplo, use APIs REST de transcrição em lote e APIs REST de reconhecimento de locutor.
Introdução
Oferecemos guias de início rápido relacionados às linguagens de programação mais populares. Cada guia de início rápido é projetado para ensinar a você padrões de design básicos e para você executar o seu código em menos de dez minutos. Confira a lista a seguir para obter o guia de início rápido para cada recurso:
- Início rápido sobre a conversão de fala em texto
- Início rápido da conversão de texto em fala
- Início rápido da tradução de fala
Exemplos de código
Há um código de exemplo disponível no GitHub para o serviço de Fala. Esses exemplos abordam cenários comuns, como ler áudio de um arquivo ou fluxo, reconhecimento contínuo e único e trabalho com modelos personalizados. Use estes links para exibir exemplos de SDK e REST:
- Amostras de reconhecimento de fala, conversão de texto em fala e tradução de fala (SDK)
- Exemplos de transcrição em lote (REST)
- Amostras de Conversão de texto em fala (REST)
- Exemplos de assistente de voz (SDK)
IA responsável
Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e a implantação de IA responsável em seus sistemas.
Conversão de fala em texto
- Nota de transparência e casos de uso
- Características e limitações
- Integração e uso responsável
- Dados, privacidade e segurança
Avaliação de pronúncia
Sintetização de voz personalizada
- Nota de transparência e casos de uso
- Características e limitações
- Acesso limitado
- Implantação responsável da fala sintética
- Divulgação de talento de voz
- Divulgação de diretrizes de design
- Divulgação de padrão de design
- Código de conduta
- Dados, privacidade e segurança
Reconhecimento do Locutor
- Nota de transparência e casos de uso
- Características e limitações
- Acesso limitado
- Diretrizes gerais
- Dados, privacidade e segurança