Personalizar um modelo de linguagem com o Azure AI Video Indexer
O Azure AI Video Indexer dá suporte ao reconhecimento automático de fala por meio da integração com o Serviço de Fala Personalizada da Microsoft. Você pode personalizar o modelo de linguagem carregando o texto de adaptação. Este texto vem do domínio cujo vocabulário você gostaria que o mecanismo usasse para se adaptar. Depois de treinar seu modelo, novas palavras que aparecem no texto de adaptação são reconhecidas, assumindo a pronúncia padrão, e o modelo de linguagem aprende novas sequências prováveis de palavras. Confira a lista de linguagens compatíveis com o Azure AI Video Indexer em idiomas com suporte.
Por exemplo, "Kubernetes" (no contexto do serviço de Kubernetes do Azure) é uma palavra altamente específica. Como a palavra é nova no Azure AI Video Indexer, ela é reconhecida como "comunidades". Treine o modelo para reconhecê-lo como "Kubernetes". Em outros casos, as palavras existem, mas o modelo de linguagem não espera que elas apareçam em um determinado contexto. Por exemplo, "serviço de contêiner" não é uma sequência de 2 palavras que um modelo de linguagem não especializado reconheceria como um conjunto específico de palavras.
Há duas maneiras de personalizar um modelo de linguagem:
- Opção 1: edite a transcrição gerada pelo Azure AI Video Indexer. Ao editar e corrigir a transcrição, você está treinando um modelo de linguagem para fornecer melhores resultados no futuro.
- Opção 2: carregar arquivos de texto para treinar o modelo de linguagem. O arquivo pode conter uma lista de palavras que você gostaria que elas aparecessem na transcrição do Video Indexer ou as palavras relevantes incluídas naturalmente em frases e parágrafos. Como a última abordagem gera melhores resultados, é recomendado que o arquivo de upload contenha frases completas ou parágrafos relacionados ao conteúdo.
Importante
Não inclua as palavras ou frases como atualmente transcritas incorretamente (por exemplo, "comunidades") no arquivo de upload, pois isso anulará o impacto pretendido. Inclua as palavras apenas como gostaria que elas aparecessem (por exemplo, "Kubernetes").
Otimize seu modelo de linguagem personalizado
O Azure AI Video Indexer aprende com base em probabilidades de combinações de palavras, portanto, para aprender melhor:
- Forneça exemplos reais suficientes de frases como elas seriam faladas.
- Coloque apenas uma frase por linha, não mais. Caso contrário, o sistema aprenderá as probabilidades entre as frases.
- Não há problema em colocar uma palavra como uma frase para aumentar a palavra contra outras, mas o sistema aprende melhor com frases completas.
- Ao introduzir novas palavras ou acrônimos, se possível, dê exemplos de uso em uma frase completa para dar o máximo de contexto possível para o sistema.
- Tente colocar várias opções de adaptação e ver como elas funcionam para você.
- Evite a repetição da mesma frase várias vezes. Isso pode criar um desvio contra o restante da entrada.
- Evite incluir símbolos incomuns (~, # @ % &), pois eles serão descartados. As frases em que aparecem também serão descartadas.
- Evite colocar entradas muito grandes, como centenas de milhares de frases, pois fazer isso diluirá o efeito do impulso.
Pré-requisitos
- Uma conta do Azure
- Uma conta do Azure AI Video Indexer
Criar um modelo de linguagem
- Acesse o site do Azure AI Video Indexer e entre.
- Para personalizar um modelo em sua conta, selecione o botão Personalização de modelo de conteúdo na esquerda da página.
- Selecione a guia Idioma. Você verá uma lista de idiomas suportados.
- Na linguagem desejada, selecione Adicionar modelo.
- Digite o nome do modelo de linguagem e pressione Enter. Essa etapa cria o modelo e oferece a opção de carregar arquivos de texto no modelo.
- Para adicionar um arquivo de texto, selecione Adicionar arquivo. O explorador de arquivos será aberto.
- Navegue até o arquivo de texto e selecione-o. Você pode adicionar vários arquivos de texto a um modelo de linguagem. Você também pode adicionar um arquivo de texto selecionando o botão ... no lado direito do modelo de linguagem e selecionando Adicionar arquivo.
- Depois que você terminar de carregar os arquivos de texto, selecione a opção verde Treinar.
O processo de treinamento pode levar alguns minutos. Depois que o treinamento for concluído, Treinado aparecerá ao lado do modelo. Você pode visualizar, baixar e excluir o arquivo do modelo.
Usando um modelo de linguagem em um novo vídeo
Para usar seu modelo de linguagem em um novo vídeo, execute uma das seguintes ações:
- Selecione o botão Carregar na parte superior da página.
- Solte o arquivo de áudio ou vídeo ou procure o arquivo.
- Selecione um modelo de linguagem criado na lista suspensa Idioma de origem do vídeo.
- Selecione a opção Carregar na parte inferior da página e seu novo vídeo será indexado usando seu modelo de linguagem.
Usando um modelo de linguagem para reindexar
- Entre na home page do Azure AI Video Indexer .
- Clique no botão ... do vídeo e selecione Reindexar.
- Selecione a lista suspensa Idioma de origem do vídeo e selecione um modelo de idioma que você criou na lista.
- Selecione o botão Reindexar e seu vídeo será reindexado usando seu modelo de linguagem.
Editar um modelo de linguagem
Você pode editar um modelo de linguagem alterando seu nome, adicionando arquivos a ele e excluindo arquivos dele. Se você adicionar ou excluir arquivos do modelo de linguagem, precisará treinar o modelo novamente selecionando a opção verde Treinar .
Renomear o modelo de linguagem
Você pode alterar o nome do modelo de linguagem selecionando o botão de reticências (...) no lado direito do modelo de linguagem e selecionando Renomear. Digite o novo nome.
Adicionar arquivos
- Selecione Adicionar arquivo. O explorador de arquivos será aberto.
- Navegue até o arquivo de texto e selecione-o. Você pode adicionar vários arquivos de texto a um modelo de linguagem.
Você também pode adicionar um arquivo de texto selecionando o botão de reticências (...) no lado direito do modelo de linguagem e selecionando Adicionar arquivo.
Excluir arquivos
Essa ação remove completamente o arquivo do modelo de linguagem.
- Selecione o botão de reticências (...) no lado direito do arquivo de texto.
- Selecione Excluir. Uma nova janela será exibida informando que a exclusão não pode ser desfeita.
- Selecione a opção Excluir na nova janela.
Excluir um modelo de linguagem
Essa ação remove completamente o modelo de linguagem da sua conta. Qualquer vídeo que estava usando o modelo deletedlLanguage manterá o mesmo índice até que você reindexe o vídeo. Se você reindexar o vídeo, poderá atribuir um novo modelo de linguagem ao vídeo. Caso contrário, o Azure AI Video Indexer usará seu modelo padrão para reindexar o vídeo.
- Selecione o botão de reticências (...) no lado direito do modelo de linguagem.
- Selecione Excluir. Uma nova janela será exibida informando que a exclusão não pode ser desfeita.
- Selecione a opção Excluir na nova janela.
Personalize modelos de linguagem corrigindo transcrições
O Azure AI Video Indexer personaliza modelos de linguagem com base nas correções reais que os usuários fazem nas transcrições de seus vídeos. Ele captura todas as linhas que você corrigiu na transcrição do seu vídeo e as adiciona a um arquivo de texto chamado From transcript edits
. Essas edições são usadas para treinar novamente o modelo de linguagem que foi usado para indexar o vídeo.
As edições que foram feitas na linha do tempo do widget também estão incluídas.
Se você não especificou um modelo de idioma ao indexar este vídeo, todas as edições desse vídeo serão armazenadas em um modelo de idioma padrão chamado Account adaptations
no idioma detectado do vídeo.
Caso várias edições tenham sido feitas na mesma linha, somente a última versão da linha corrigida será usada para atualizar o modelo de linguagem.
Observação
Somente correções textuais são usadas para a personalização. As correções que não envolvem palavras reais (por exemplo, marcas ou espaços de pontuação) não são incluídas.
- Selecione o vídeo que você deseja editar na sua biblioteca.
- Selecione a guia Linha do tempo.
- Selecione o ícone de lápis para editar a transcrição desejada.
- Você verá as correções de transcrição aparecerem na guia Idioma da página de personalização do modelo de conteúdo. Para examinar o arquivo de "Das edições de transcrição" para cada um dos seus modelos de linguagem, selecione-o para abri-lo.