Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Com a fala personalizada, é possível avaliar e aprimorar a precisão do reconhecimento de fala dos aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote.
Pronto para uso, o reconhecimento de fala utiliza um Modelo de Linguagem Universal como um modelo base treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo base é pré-treinado com dialetos e fonéticas que representam uma variedade de domínios comuns. Quando você faz uma solicitação de reconhecimento de fala, o modelo base mais recente de cada linguagem com suporte é usado por padrão. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.
Um modelo personalizado pode ser usado para aumentar o modelo base para melhorar o reconhecimento do vocabulário específico do domínio específico ao aplicativo, fornecendo dados de texto para treinar o modelo. Ele também pode ser usado para melhorar o reconhecimento com base nas condições de áudio específicas do aplicativo, fornecendo dados de áudio com transcrições de referência.
Você também pode treinar um modelo com texto estruturado, quando os dados seguirem um padrão, para especificar pronúncias personalizadas e personalizar a formatação de texto de exibição com normalização de texto inversa personalizada, reescrita personalizada e filtragem personalizada de conteúdo ofensivo.
Como ele funciona?
Com a fala personalizada, você pode carregar seus próprios dados, testar e treinar um modelo personalizado, comparar a precisão entre modelos e implantar um modelo em um ponto de extremidade personalizado.
Veja mais informações sobre a sequência de etapas mostradas no diagrama anterior:
Criar um projeto e escolher um modelo. Use um o recurso de Fala de Fala que você cria no portal do Azure. Se você treinar um modelo personalizado com dados de áudio, selecione um recurso de serviço em uma região com hardware dedicado para treinar dados de áudio. Para obter mais informações, confira as notas de rodapé na tabela regiões.
Carregar dados de teste. Carregue dados de teste para avaliar a oferta de conversão de fala em texto para seus aplicativos, ferramentas e produtos.
Treinar um modelo. Forneça transcrições escritas e texto relacionado, juntamente com os dados de áudio correspondentes. Testar um modelo antes e depois do treinamento é opcional, mas recomendado.
Observação
Você paga pelo uso personalizado do modelo de fala e pela hospedagem do ponto de extremidade. Você também será cobrado pelo treinamento do modelo de fala personalizada se o modelo base tiver sido criado em 1º de outubro de 2023 e posteriormente. Você não será cobrado pelo treinamento se o modelo base tiver sido criado antes de outubro de 2023. Para obter mais informações, consulte Preços de Fala de IA do Azure e a seção Cobrança pela adaptação no guia de migração de conversão de fala em texto 3.2.
Testar qualidade do reconhecimento. Use o Speech Studio para reproduzir áudio carregado e inspecionar a qualidade do reconhecimento de fala de seus dados de teste.
Testar modelo quantitativamente. Avalie e aprimore a precisão do modelo de reconhecimento de fala. O serviço de Fala fornece uma WER (taxa de erros de palavras) quantitativa, que você pode usar para determinar se treinamento adicional é necessário.
Implantar um modelo. Depois de estar satisfeito com os resultados do teste, implante o modelo em um ponto de extremidade personalizado. Com exceção da transcrição em lote, você deve implantar um ponto de extremidade personalizado para usar um modelo de fala personalizada.
Dica
Um ponto de extremidade de implantação hospedado não é necessário para usar a fala personalizada com a API de transcrição em lote. Você poderá conservar recursos se o modelo de fala personalizado só for usado para transcrição em lote. Para obter mais informações, confira Preços do serviço de Fala.
Escolher o modelo
Há algumas abordagens para usar modelos de fala personalizada:
- O modelo base fornece reconhecimento de fala preciso pronto para uma série de cenários. Os modelos base são atualizados periodicamente para melhorar a precisão e a qualidade. Recomendamos que, se for usar modelos base, você use os modelos base padrão mais recentes. Se uma funcionalidade de personalização necessária estiver disponível apenas em um modelo mais antigo, você poderá escolher um modelo base mais antigo.
- Um modelo personalizado aumenta o modelo base para incluir vocabulário específico do domínio compartilhado em todas as áreas do domínio personalizado.
- Vários modelos personalizados podem ser usados quando o domínio personalizado tem várias áreas, cada uma com um vocabulário específico.
Uma forma recomendada de ver se o modelo base é suficiente é analisar a transcrição produzida pelo modelo base e compará-la com uma transcrição humana do mesmo áudio. Você pode comparar as transcrições e obter uma pontuação WER (taxa de erro de palavra). Se a pontuação WER for alta, é recomendável treinar um modelo personalizado para reconhecer as palavras identificadas incorretamente.
Recomenda-se o uso de vários modelos quando o vocabulário varia entre as áreas de domínio. Por exemplo, relatos de comentaristas olímpicos sobre vários eventos, cada qual associado a um vernáculo próprio. Como o vocabulário de cada evento olímpico difere significativamente, a criação de um modelo personalizado específico para um evento aumenta a precisão, limitando os dados de enunciado em relação a esse evento específico. Como resultado, o modelo não precisa peneirar dados não relacionados para fazer correspondências. Independentemente disso, o treinamento ainda requer uma variedade de dados de treinamento adequada. Inclua áudio de vários comentaristas para obter diversidade de sotaque, gênero, idade etc.
Estabilidade e ciclo de vida do modelo
Um modelo base ou um modelo personalizado implantado em um ponto de extremidade usando fala personalizada será corrigido até que você decida atualizá-lo. A precisão e a qualidade do reconhecimento de fala permanecem consistentes, mesmo quando um novo modelo base é lançado. Assim, você poderá sustentar o comportamento de um modelo específico até decidir usar um modelo mais recente.
Quer você treine um modelo próprio ou use um instantâneo de um modelo base, ele poderá ser usado por tempo limitado. Para saber mais, confira Ciclo de vida do modelo e do ponto de extremidade.
IA responsável
Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e implantação de IA responsável em seus sistemas.
- Nota de transparência e casos de uso
- Características e limitações
- Integração e uso responsável
- Dados, privacidade e segurança