Compartilhar via


Práticas recomendadas de treinamento do modelo de fala

Observação

A personalização do modelo de fala, incluindo o treinamento de pronúncia, só tem suporte em contas de avaliação do Azure do Video Indexer e contas do Resource Manager. Não há suporte em contas clássicas. Para obter diretrizes sobre como atualizar seu tipo de conta sem custo, consulte Atualizar sua conta do Azure AI Video Indexer. Para obter diretrizes sobre como usar a experiência de linguagem personalizada, consulte Personalizar um modelo de linguagem.

Por meio da integração do Azure AI Video Indexer com os serviços de Fala do Azure AI, um Modelo de Linguagem Universal é utilizado como um modelo base que é treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo básico é pré-treinado com dialetos e fonética que representam vários domínios comuns. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.

No entanto, às vezes a transcrição do modelo base não lida com precisão com algum conteúdo. Nessas situações, um modelo de fala personalizado pode ser usado para melhorar o reconhecimento do vocabulário ou da pronúncia específica do domínio que é específica para seu conteúdo, fornecendo dados de texto para treinar o modelo. Por meio do processo de criação e adaptação de modelos de personalização de fala, seu conteúdo pode ser transcrito corretamente. Não há custo adicional para usar a personalização de fala dos Video Indexers.

Quando usar um modelo de fala personalizado?

Se o conteúdo contiver terminologia específica do setor ou ao revisar os resultados da transcrição do Video Indexer você notar imprecisões, poderá criar e treinar um modelo de fala personalizado para reconhecer os termos e melhorar a qualidade da transcrição. Só pode valer a pena criar um modelo personalizado se as palavras e nomes relevantes aparecerem repetidamente no conteúdo que você planeja indexar. Às vezes, o treinamento de um modelo é um processo iterativo e você pode descobrir que, após o treinamento inicial, os resultados ainda podem usar melhorias e se beneficiariam de treinamento adicional, consulte a seção Melhorar seu modelo personalizado para obter diretrizes.

No entanto, se você notar algumas palavras ou nomes transcritos incorretamente na transcrição, um modelo de fala personalizado pode não ser necessário, especialmente se não se espera que as palavras ou nomes sejam comumente usados no conteúdo que você planeja indexar no futuro. Você pode simplesmente editar e corrigir a transcrição no site do Video Indexer (consulte Exibir e atualizar transcrições no site do Azure AI Video Indexer) e não precisa abordá-la por meio de um modelo de fala personalizado.

Para obter uma lista de idiomas que dão suporte a modelos personalizados e pronúncia, consulte as colunas Personalização e Pronúncia da tabela de suporte a idiomas em Suporte a idiomas no Azure AI Video Indexer.

Treinar conjuntos de dados

Ao indexar um vídeo, você pode usar um modelo de fala personalizado para melhorar a transcrição. Os modelos são treinados carregando-os com conjuntos de dados que podem incluir dados de texto sem formatação e dados de pronúncia.

O texto usado para testar e treinar um modelo personalizado deve incluir exemplos de um conjunto diversificado de conteúdo e cenários que você deseja que seu modelo reconheça. Considere os seguintes fatores ao criar e treinar seus conjuntos de dados:

  • Inclua texto que abranja os tipos de declarações verbais que seus usuários fazem quando estão interagindo com seu modelo. Por exemplo, se o seu conteúdo estiver relacionado principalmente a um esporte, treine o modelo com conteúdo que contenha terminologia e assunto relacionado ao esporte.
  • Incluir todas as variâncias de fala que você deseja que o modelo reconheça. Muitos fatores podem variar a fala, incluindo sotaques, dialetos e mistura de idiomas.
  • Inclua apenas dados relevantes para o conteúdo que você planeja transcrever. A inclusão de outros dados pode prejudicar a qualidade geral do reconhecimento.

Tipos de conjunto de dados

Há dois tipos de conjunto de dados que você pode usar para personalização. Para ajudar a determinar qual conjunto de dados usar para resolver seus problemas, consulte a tabela a seguir:

Caso de uso Tipo de dados
Aprimore a precisão do reconhecimento no vocabulário e na gramática específicos do setor, como terminologia médica ou jargão de TI. Texto sem formatação
Defina a forma fonética e exibida de uma palavra ou um termo que tenham pronúncia não padrão, como nomes de produtos ou siglas. Dados de pronúncia

Dados de texto sem formatação para treinamento

Um conjunto de dados incluindo frases de texto simples de texto relacionado pode ser usado para melhorar o reconhecimento de palavras e frases específicas do domínio. Frases de texto relacionadas podem reduzir erros de substituição relacionados ao reconhecimento incorreto de palavras comuns e de palavras específicas de domínio, mostrando-as no contexto. Palavras específicas de domínio podem ser palavras incomuns ou inventadas, mas a pronúncia deve ser simples de ser reconhecida.

Práticas recomendadas para conjuntos de dados de texto sem formatação

  • Forneça frases relacionadas com domínio em um único arquivo de texto. Em vez de usar frases completas, você pode fazer upload de uma lista de palavras. No entanto, embora isso os adicione ao vocabulário, não ensina ao sistema como as palavras são normalmente usadas. Fornecendo enunciados completos ou parciais (orações ou frases de itens que os usuários provavelmente dirão), o modelo de linguagem pode aprender as novas palavras e como elas são usadas. O modelo de linguagem personalizado é bom não apenas para incluir novas palavras no sistema, mas também para ajustar a probabilidade de palavras conhecidas para sua aplicação. Fornecer utterances completas ajuda o sistema Saiba mais.
  • Use dados de texto próximos aos enunciados falados esperados. Os enunciados não precisam ser completos nem gramaticalmente corretos, mas devem refletir precisamente a entrada de fala que você espera que o modelo reconheça.
  • Tente ter cada frase ou palavra-chave em uma linha separada.
  • Para aumentar o peso de um termo como nomes de produtos, adicione várias frases que incluem o termo.
  • Para frases comuns que são usadas em seu conteúdo, fornecer muitos exemplos é útil porque informa ao sistema para ouvir esses termos. 
  • Evite incluir símbolos incomuns (~, # @ % &) como descartados. As frases em que aparecem também são descartadas.
  • Evite colocar entradas muito grandes, como centenas de milhares de frases, porque isso dilui o efeito do boosting.

Use esta tabela para garantir que o arquivo de dados de texto sem formatação está formatado corretamente:

Propriedade Valor
Codificação de texto BOM para UTF-8
Número de enunciados por linha 1
Tamanho máximo do arquivo 200 MB

Tente seguir estas diretrizes em seus arquivos de texto simples:

  • Evite repetir caracteres, palavras ou grupos de palavras mais de três vezes, como "sim sim sim sim", pois o serviço pode descartar linhas com muitas repetições.
  • Não use caracteres especiais ou caracteres UTF-8 acima de U+00A1.
  • URIs é rejeitado.
  • Para alguns idiomas, como japonês ou coreano, a importação de grandes volumes de dados de texto pode demorar muito ou atingir tempo limite. Divida o conjunto de dados em vários arquivos de texto de até 20.000 linhas cada.

Dados de pronúncia para treinamento

Você pode adicionar ao seu modelo de fala personalizado um conjunto de dados de pronúncia personalizado para melhorar o reconhecimento de palavras, frases ou nomes pronunciados incorretamente.

Os conjuntos de dados de pronúncia precisam incluir a forma falada de uma palavra ou frase, bem como a forma exibida reconhecida. A forma falada é a sequência fonética soletrada, como "Triple A". Pode ser composto por letras, palavras, sílabas ou uma combinação dos três. A forma exibida reconhecida é como você gostaria que a palavra ou frase aparecesse na transcrição. Esta tabela inclui alguns exemplos:

Forma exibida reconhecida Forma falada
3CPO três cê pê o
CNTK cê ene tê cá
AAA Triplo A

Você fornece conjuntos de dados de pronúncia em um único arquivo de texto. Inclua o enunciado falado e uma pronúncia personalizada para cada um. Cada linha no arquivo deve começar com o formulário reconhecido, em seguida, um caractere de tabulação e, em seguida, a sequência fonética delimitada por espaço.

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e 

Considere o seguinte ao criar e treinar conjuntos de dados de pronúncia:

Não é recomendado usar arquivos de pronúncia personalizados para alterar a pronúncia de palavras comuns.

Se houver algumas variações de como uma palavra ou nome é transcrito incorretamente, considere usar algumas ou todas elas ao treinar o conjunto de dados de pronúncia. Por exemplo, se Robert for mencionado cinco vezes no vídeo e transcrito como Robort, Ropert e ladrões. Você pode tentar incluir todas as variações no arquivo como no exemplo a seguir, mas tenha cuidado ao treinar com palavras reais como ladrões, como se ladrões fosse mencionado no vídeo, ele é transcrito como Robert.

Robert Roport
Robert Ropert
Robert Robbers

O modelo de pronúncia não se destina a abordar acrônimos. Por exemplo, se você deseja que Doctor seja transcrito como Dr., isso não pode ser feito por meio de um modelo de pronúncia.

Consulte a tabela a seguir para garantir que os arquivos do conjunto de dados de pronúncia sejam válidos e formatados corretamente.

Propriedade Valor
Codificação de texto UTF-8 BOM (também há suporte para ANSI em inglês)
Número de pronúncias por linha 1
Tamanho máximo do arquivo 1 MB (1 KB para tipo de preço gratuito)

Melhore seus modelos personalizados

O treinamento de um modelo de pronúncia pode ser um processo iterativo, pois você pode obter mais conhecimento sobre a pronúncia do assunto após o treinamento inicial e a avaliação dos resultados do modelo. Como os modelos existentes não podem ser editados ou modificados, o treinamento de um modelo iterativamente requer a criação e o upload de conjuntos de dados com informações adicionais, bem como o treinamento de novos modelos personalizados com base nos novos conjuntos de dados. Em seguida, você reindexaria os arquivos de mídia com o novo modelo de fala personalizado.

Exemplo:

Digamos que você planeje indexar conteúdo esportivo e antecipar problemas de precisão de transcrição com terminologia esportiva específica, bem como nos nomes de jogadores e treinadores. Antes da indexação, você criou um modelo de fala com um conjunto de dados de texto sem formatação com conteúdo contendo terminologia esportiva relevante e um conjunto de dados de pronúncia com alguns dos nomes dos jogadores e treinadores. Você indexa alguns vídeos usando o modelo de fala personalizado e, ao revisar a transcrição gerada, descobre que, embora a terminologia seja transcrita corretamente, muitos nomes não são. Você pode executar as seguintes etapas para melhorar o desempenho no futuro:

  1. Revise a transcrição e observe todos os nomes transcritos incorretamente. Eles podem se enquadrar em dois grupos:

    • Nomes que não estão no arquivo de pronúncia.
    • Nomes no arquivo de pronúncia, mas ainda estão transcritos incorretamente.
  2. Crie um novo arquivo de conjunto de dados. Baixe o arquivo do conjunto de dados de pronúncia ou modifique o original salvo localmente. Para o grupo A, adicione os novos nomes ao arquivo com a forma como eles foram transcritos incorretamente (Michael Mikel). Para o grupo B, adicione linhas adicionais com cada linha com o nome correto e um exemplo exclusivo de como ela foi transcrita incorretamente. Por exemplo:

    Stephen Steven
    Stephen Steafan
    Stephen Steevan

  3. Carregue esse arquivo como um novo arquivo de conjunto de dados.

  4. Crie um novo modelo de fala e adicione o conjunto de dados de texto sem formatação original e o novo arquivo de conjunto de dados de pronúncia.

  5. Reindexe o vídeo com o novo modelo de fala.

  6. Se necessário, repita as etapas 1 a 5 até que os resultados sejam satisfatórios.