O que é a Fala Personalizada?

Com a Fala Personalizada, você pode avaliar e aprimorar a precisão da conversão de fala em texto da Microsoft em aplicativos e produtos.

Fora da caixa, a conversão de fala em texto utiliza um Modelo de Linguagem Universal como um modelo base treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo base é pré-treinado com dialetos e fonéticas que representam uma variedade de domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente de cada linguagem com suporte é usado por padrão. O modelo base funciona muito bem na maioria dos cenários de reconhecimento de fala.

Um modelo personalizado pode ser usado para aumentar o modelo base para melhorar o reconhecimento do vocabulário específico do domínio específico ao aplicativo, fornecendo dados de texto para treinar o modelo. Ele também pode ser usado para melhorar o reconhecimento com base nas condições de áudio específicas do aplicativo, fornecendo dados de áudio com transcrições de referência.

Como ele funciona?

Com a Fala Personalizada, você pode carregar seus próprios dados, testar e treinar um modelo personalizado, comparar a precisão entre modelos e implantar um modelo em um ponto de extremidade personalizado.

Diagrama realça as partes que compõem a área da Fala Personalizada do Speech Studio.

Veja mais informações sobre a sequência de etapas mostradas no diagrama anterior:

  1. Criar um projeto e escolher um modelo. Use recurso de Fala criado no portal do Azure. Se você treinar um modelo personalizado com dados de áudio, escolha uma região de recursos de Fala com hardware dedicado para treinar dados de áudio. Confira as notas de rodapé na tabela regiões para mais informações.
  2. Carregar dados de teste. Carregue dados de teste para avaliar a oferta do reconhecimento de fala da Microsoft para os aplicativos, as ferramentas e os produtos.
  3. Testar qualidade do reconhecimento. Use o Speech Studio para reproduzir áudio carregado e inspecionar a qualidade do reconhecimento de fala de seus dados de teste.
  4. Testar modelo quantitativamente. Avalie e aprimore a precisão do modelo de reconhecimento de fala. O Speech Studio fornece uma taxa de erros de palavras, que você pode usar para determinar se o treinamento adicional é necessário.
  5. Treinar um modelo. Forneça transcrições escritas e texto relacionado, juntamente com os dados de áudio correspondentes. Testar um modelo antes e depois do treinamento é opcional, mas recomendado.
  6. Implantar um modelo. Depois de estar satisfeito com os resultados do teste, implante o modelo em um ponto de extremidade personalizado. Com exceção da transcrição em lote, você deve implantar um ponto de extremidade personalizado para usar um modelo de Fala Personalizada.

Próximas etapas