Práticas recomendadas de treinamento do modelo de fala

2025-06-09

Observação

A personalização do modelo de fala, incluindo o treinamento de pronúncia, está disponível nas contas de avaliação do Azure do Video Indexer e nas contas do Resource Manager. As contas clássicas não dão suporte a esse recurso. Para saber como usar a experiência de linguagem personalizada, consulte Personalizar um modelo de idioma.

Por meio da integração do Azure AI Video Indexer com os serviços de Fala do Azure AI, um Modelo de Linguagem Universal é utilizado como um modelo base que é treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo básico é pré-treinado com dialetos e fonética que representam vários domínios comuns. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.

No entanto, às vezes a transcrição do modelo base não lida com precisão com algum conteúdo. Nessas situações, um modelo de fala personalizado pode ser usado para melhorar o reconhecimento do vocabulário ou da pronúncia específica do domínio que é específica para seu conteúdo, fornecendo dados de texto para treinar o modelo. Por meio do processo de criação e adaptação de modelos de personalização de fala, seu conteúdo pode ser transcrito corretamente. Não há nenhum custo adicional para usar a personalização de fala do Video Indexer de IA do Azure.

Quando usar um modelo de fala personalizado

Se o conteúdo contiver terminologia específica do setor ou quando os resultados da transcrição tiverem imprecisões, você poderá criar e treinar um modelo de fala personalizado. Ele pode reconhecer os termos e melhorar a qualidade da transcrição. Talvez só valha a pena criar um modelo personalizado se as palavras e nomes relevantes forem exibidos repetidamente no conteúdo que você planeja indexar. Treinar um modelo às vezes é um processo iterativo. Você pode descobrir que, após o treinamento inicial, os resultados podem usar melhorias e precisar de mais treinamento, consulte a seção Melhorar seu modelo personalizado para obter diretrizes.

Se determinadas palavras ou nomes raramente forem usados em seu conteúdo, você não precisará de um modelo de fala personalizado. Em vez disso, você pode editar e corrigir manualmente a transcrição diretamente no site do Video Indexer de IA do Azure. Para termos mais frequentes ou específicos do domínio, considere a criação de um modelo de fala personalizado para melhorar a precisão da transcrição. Para obter mais informações sobre como editar e corrigir transcrições, consulte Exibir e atualizar transcrições no site do Video Indexer de IA do Azure.

Para obter uma lista de idiomas que dão suporte a modelos personalizados e pronúncia, consulte as colunas Personalização e Pronúncia da tabela de suporte a idiomas em Suporte a idiomas no Azure AI Video Indexer.

Treinar conjuntos de dados

Ao indexar um vídeo, você pode usar um modelo de fala personalizado para melhorar a transcrição. Os modelos são treinados carregando-os com conjuntos de dados que podem incluir dados de texto sem formatação e dados de pronúncia.

O texto usado para testar e treinar um modelo personalizado deve incluir exemplos de um conjunto diversificado de conteúdo e cenários que você deseja que seu modelo reconheça. Considere os seguintes fatores ao criar e treinar seus conjuntos de dados:

Inclua texto que abranja os tipos de declarações verbais que seus usuários fazem quando estão interagindo com seu modelo. Por exemplo, se o seu conteúdo estiver relacionado principalmente a um esporte, treine o modelo com conteúdo que contenha terminologia e assunto relacionado ao esporte.
Incluir todas as variâncias de fala que você deseja que o modelo reconheça. Muitos fatores podem variar a fala, incluindo sotaques, dialetos e mistura de idiomas.
Inclua apenas dados relevantes para o conteúdo que você planeja transcrever. A inclusão de outros dados pode prejudicar a qualidade geral do reconhecimento.

Tipos de conjunto de dados

Há dois tipos de conjunto de dados que você pode usar para personalização. Para ajudar a determinar qual conjunto de dados usar para resolver seus problemas, consulte a tabela a seguir:

Caso de uso	Tipo de dados
Aprimore a precisão do reconhecimento no vocabulário e na gramática específicos do setor, como terminologia médica ou jargão de TI.	Texto sem formatação
Defina a forma fonética e exibida de uma palavra ou um termo que tenham pronúncia não padrão, como nomes de produtos ou siglas.	Dados de pronúncia

Dados de texto sem formatação para treinamento

Um conjunto de dados incluindo frases de texto simples de texto relacionado pode ser usado para melhorar o reconhecimento de palavras e frases específicas do domínio. Frases de texto relacionadas podem reduzir erros de substituição relacionados ao reconhecimento incorreto de palavras comuns e de palavras específicas de domínio, mostrando-as no contexto. Palavras específicas de domínio podem ser palavras incomuns ou inventadas, mas a pronúncia deve ser simples de ser reconhecida.

Práticas recomendadas para conjuntos de dados de texto sem formatação

Forneça frases relacionadas com domínio em um único arquivo de texto. Em vez de usar frases completas, você pode fazer upload de uma lista de palavras. No entanto, embora as adicione ao vocabulário, ele não ensina ao sistema como as palavras são normalmente usadas. Fornecendo enunciados completos ou parciais (orações ou frases de itens que os usuários provavelmente dirão), o modelo de linguagem pode aprender as novas palavras e como elas são usadas. O modelo de linguagem personalizado é bom não apenas para incluir novas palavras no sistema, mas também para ajustar a probabilidade de palavras conhecidas para sua aplicação. Fornecer enunciados completos ajuda o sistema a aprender melhor.
Use dados de texto próximos aos enunciados falados esperados. Os enunciados não precisam ser completos nem gramaticalmente corretos, mas devem refletir precisamente a entrada de fala que você espera que o modelo reconheça.
Tente ter cada frase ou palavra-chave em uma linha separada.
Para aumentar o peso de um termo como nomes de produtos, adicione várias frases que incluem o termo.
Para frases comuns que são usadas no seu conteúdo, é útil fornecer muitos exemplos, porque isso informa ao sistema para escutar esses termos. 
Evite incluir símbolos incomuns (~, # @ % &) pois serão descartados. As frases em que aparecem também são descartadas.
Evite colocar entradas muito grandes, como centenas de milhares de frases, porque isso dilui o efeito de amplificação.

Use esta tabela para garantir que o arquivo de dados de texto sem formatação está formatado corretamente:

Propriedade	Valor
Codificação de texto	BOM para UTF-8
Número de enunciados por linha	1
Tamanho máximo do arquivo	200 MB

Tente seguir estas diretrizes em seus arquivos de texto simples:

Evite repetir caracteres, palavras ou grupos de palavras mais de três vezes, como yeah yeah yeah yeah, pois o serviço pode criar linhas de projeção com muitas repetições.
Não use caracteres especiais ou caracteres no formato UTF-8 acima de U+00A1.
As URIs são rejeitadas.
Para alguns idiomas, como japonês ou coreano, importar grandes quantidades de dados de texto pode levar muito tempo ou atingir tempo limite. Considere dividir o conjunto de dados em vários arquivos de texto com até 20.000 linhas em cada um.

Dados de pronúncia para treinamento

Você pode adicionar ao seu modelo de fala personalizado um conjunto de dados de pronúncia personalizado para melhorar o reconhecimento de palavras, frases ou nomes pronunciados incorretamente.

Os conjuntos de dados de pronúncia precisam incluir a forma falada de uma palavra ou frase e a forma exibida e reconhecida. A forma falada é a sequência fonética soletrada, como Triple A. Pode ser composto por letras, palavras, sílabas ou uma combinação dos três. A forma exibida reconhecida é como você gostaria que a palavra ou frase aparecesse na transcrição. Esta tabela inclui alguns exemplos:

Forma exibida reconhecida	Forma falada
3CPO	três cê pê o
CNTK	cê ene tê cá
AAA	Triplo A

Você fornece conjuntos de dados de pronúncia em um único arquivo de texto. Inclua o enunciado falado e uma pronúncia personalizada para cada um. Cada linha no arquivo deve começar com o formulário reconhecido, em seguida, um caractere de tabulação e, em seguida, a sequência fonética delimitada por espaço.

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e

Considere os seguintes pontos ao criar e treinar conjuntos de dados de pronúncia:

Desencorajamos você de usar arquivos de pronúncia personalizados para alterar a pronúncia de palavras comuns.

Se houver algumas variações de como uma palavra ou nome é transcrito incorretamente, considere usar algumas ou todas elas ao treinar o conjunto de dados de pronúncia. Por exemplo, se Robert for mencionado cinco vezes no vídeo e transcrito como Robort, Roperte robbers. Você pode tentar incluir todas as variações no arquivo, tal qual o exemplo a seguir, mas tome cuidado ao treinar com palavras reais como robbers, pois se robbers fosse mencionado no vídeo, seria transcrita como Robert.

Robert Roport
Robert Ropert
Robert Robbers

O modelo de pronúncia não se destina a abordar acrônimos. Por exemplo, se você quiser que Doutor seja transcrito como Dr., isso não pode ser conseguido por meio de um modelo de pronúncia.

Consulte a tabela a seguir para garantir que os arquivos do conjunto de dados de pronúncia sejam válidos e formatados corretamente.

Propriedade	Valor
Codificação de texto	UTF-8 BOM (também há suporte para ANSI em inglês)
Número de pronúncias por linha	1
Tamanho máximo do arquivo	1 MB (1 KB para camada gratuita)

Melhore seus modelos personalizados

O treinamento de um modelo de pronúncia pode ser um processo iterativo, pois você pode obter mais conhecimento sobre a pronúncia do assunto após o treinamento inicial e a avaliação dos resultados do modelo. Modelos existentes não podem ser editados ou modificados. Treinar um modelo iterativamente requer a criação e o carregamento de conjuntos de dados com mais informações. O treinamento de novos modelos personalizados com base nos novos conjuntos de dados também é necessário. Em seguida, você reindexaria os arquivos de mídia com o novo modelo de fala personalizado.

Exemplo:

Suponha que você planeje indexar conteúdo esportivo e prever problemas de precisão de transcrição com terminologia esportiva específica, bem como nos nomes de jogadores e treinadores. Antes da indexação, você criou um modelo de fala com um conjunto de dados de texto sem formatação. Ele contém terminologia esportiva relevante e um conjunto de dados de pronúncia com alguns dos nomes dos jogadores e treinadores. Você indexa alguns vídeos usando o modelo de fala personalizado e, ao revisar a transcrição gerada, descobre que, embora a terminologia seja transcrita corretamente, muitos nomes não são. Você pode executar as seguintes etapas para melhorar o desempenho no futuro:

Revise a transcrição e observe todos os nomes transcritos incorretamente. Eles podem se enquadrar em dois grupos:
- Nomes que não estão no arquivo de pronúncia.
- Os nomes estão no arquivo de pronúncia, mas ainda são transcritos incorretamente.
Crie um novo arquivo de conjunto de dados. Baixe o arquivo do conjunto de dados de pronúncia ou modifique o original salvo localmente. Para o grupo A, adicione os novos nomes ao arquivo com a forma como eles foram transcritos incorretamente (Michael Mikel). Para o grupo B, adicione mais linhas com cada linha com o nome correto e um exemplo exclusivo de como ela foi transcrita incorretamente. Por exemplo:

Stephen Steven
Stephen Steafan
Stephen Steevan
Carregue esse arquivo como um novo arquivo de conjunto de dados.
Crie um novo modelo de fala e adicione o conjunto de dados de texto sem formatação original e o novo arquivo de conjunto de dados de pronúncia.
Reindexe o vídeo com o novo modelo de fala.
Se necessário, repita as etapas 1 a 5 até que os resultados sejam satisfatórios.

Personalizar um modelo de idioma

Compartilhar via