O que é o Estúdio de Fala?

Artigo
01/22/2024

O Speech Studio é um conjunto de ferramentas baseadas na interface do usuário para criar e integrar recursos do serviço de Fala de IA do Azure nos seus aplicativos. Você cria projetos no Speech Studio ao usar uma abordagem sem código e fazer referência a esses ativos nos seus aplicativos usando o SDK de Fala, a CLI de Fala ou as APIs REST.

Dica

É possível experimentar a conversão de fala em texto e a conversão de texto em fala no Speech Studio sem inscrever-se ou gravar qualquer código.

Cenários do Speech Studio

Explore, experimente e exiba o código de exemplo para alguns dos casos de uso comuns.

Legendagem: escolha um videoclipe de exemplo para ver os resultados da legenda processada em tempo real ou off-line. Aprenda a sincronizar legendas com seu áudio de entrada, aplicar filtros de palavrões, obter resultados parciais, aplicar personalizações e identificar idiomas falados para cenários multilíngues. Para obter mais informações, consulte o início rápido da legendagem.
Call Center: exiba uma demonstração sobre como usar os serviços de Linguagem e Fala para analisar conversas do call center. Transcreva chamadas em tempo real ou processe um lote de chamadas, além de redigir informações de identificação pessoal e extrair insights como sentimento para ajudar no caso de uso de call center. Para obter mais informações, consulte o início rápido do call center.

Para obter uma demonstração desses cenários no Speech Studio, assista a este vídeo introdutório.

Recursos do Speech Studio

No Speech Studio, os recursos a seguir do serviço de Fala estão disponíveis como tipos de projeto:

Conversão de fala em texto em tempo real: teste rapidamente a conversão de fala em texto arrastando os arquivos de áudio aqui sem ter que usar nenhum código. O Speech Studio tem uma ferramenta de demonstração para ver como a conversão de fala em texto funciona em suas amostras de áudio. Para explorar a funcionalidade completa, confira O que é a conversão de fala em texto.
Conversão de fala em texto em lote: teste rapidamente os recursos de transcrição em lote para transcrever uma grande quantidade de áudio no armazenamento e receber resultados de forma assíncrona. Para saber mais sobre Conversão de Fala em Texto em Lote, consulte Visão geral da conversão de fala em texto em lote.
Fala personalizada: cria modelos de reconhecimento de fala que são adaptados a conjuntos de vocabulários e estilos de fala específicos. Ao contrário do modelo de reconhecimento de fala base, os modelos de Fala personalizada se tornaram parte da sua vantagem competitiva exclusiva porque eles não estão acessíveis para o público geral. Para começar a carregar um áudio de exemplo para criar um modelo de fala personalizada, confira Carregar conjunto de dados de treinamento e teste.
Avaliação de pronúncia: avalie a pronúncia da fala e fornece comentários aos locutores sobre a precisão e a fluência do áudio falado. O Speech Studio fornece uma área restrita para testar rapidamente esse recurso, sem código. Para usar o recurso com o SDK de fala em seus aplicativos, confira o artigo Avaliação de pronúncia.
Tradução de Fala: teste e traduza rapidamente a fala para outros idiomas de sua escolha com baixa latência. Para explorar a funcionalidade completa, confira O que é tradução de fala .
Galeria de Voz: crie aplicativos e serviços que falam naturalmente. Escolha de um amplo portfólio de idiomas, vozes e variantes. Dê vida aos seus cenários com vozes neurais altamente expressivas e humanas.
Voz personalizada: crie vozes personalizadas e únicas para conversão de texto em fala. Você fornece arquivos de áudio e cria transcrições correspondentes no Speech Studio e usa as vozes personalizadas nos seus aplicativos. Para criar e usar vozes personalizadas por meio de pontos de extremidade, confira Criar e usar seu modelo de voz.
Criação de Conteúdo de Áudio: uma abordagem sem código para síntese de texto em fala. Você pode usar o áudio de saída como está ou como ponto de partida para personalização adicional. Você pode compilar conteúdo de áudio altamente natural para vários cenários, como audiolivros, transmissões de notícias, narrações de vídeos e bots de chat. Para obter mais informações, consulte a documentação Criação de Conteúdo de Áudio.
Palavra-chave Personalizada: uma palavra-chave personalizada é uma palavra ou frase curta que você pode usar para ativar um produto por voz. Crie uma palavra-chave personalizada no Speech Studio e gere um arquivo binário para usar com o SDK de Fala nos seus aplicativos.
Comandos Personalizados: crie facilmente aplicativos avançados de comando de voz que são otimizados para experiências de interação que priorizam a voz. Os comandos personalizados fornecem uma experiência de criação sem código no Speech Studio, um modelo de hospedagem automático e complexidade relativamente menor. O recurso ajuda você a se concentrar na criação da melhor solução para seus cenários de comando de voz. Para obter mais informações, confira o guia Desenvolver aplicativos de comandos personalizados. Confira também Integrar com um aplicativo cliente usando o SDK de Fala.

Próximas etapas

Explorar o Speech Studio

O que é o Estúdio de Fala?

Cenários do Speech Studio

Recursos do Speech Studio

Próximas etapas

Recursos adicionais