Personnaliser un modèle de langage avec Azure AI Video Indexer

Important

En raison de l’annonce de mise hors service d’Azure Media Services, Azure AI Video Indexer annonce les ajustements des fonctionnalités d’Azure AI Video Indexer. Consultez les modifications relatives à la mise hors service Azure Media Service (AMS) pour comprendre ce que cela signifie pour votre compte Azure AI Video Indexer. Consultez le guide de préparation de la mise hors service AMS : Mise à jour et migration vi.

Azure AI Video Indexer prend en charge la reconnaissance vocale automatique via l’intégration au service Microsoft Custom Speech. Vous pouvez personnaliser le modèle de langue en chargeant le texte d’adaptation. Ce texte provient du domaine dont vous souhaitez que le moteur s’adapte. Une fois que vous avez entraîné votre modèle, de nouveaux mots apparaissant dans le texte d’adaptation sont reconnus, en supposant que la prononciation par défaut et le modèle de langue apprend de nouvelles séquences probables de mots. Consultez la liste des langues prises en charge par Azure AI Video Indexer dans les langues prises en charge.

Par exemple, « Kubernetes » (dans le contexte d’Azure Kubernetes service), est un mot très spécifique. Étant donné que le mot est nouveau dans Azure AI Video Indexer, il est reconnu comme « communautés ». Vous devez entraîner le modèle pour le reconnaître comme « Kubernetes ». Dans d’autres cas, les mots existent, mais le modèle de langage ne s’attend pas à ce qu’ils apparaissent dans un certain contexte. Par exemple, « service de conteneur » n’est pas une séquence de 2 mots qu’un modèle de langage non spécifié reconnaît comme un ensemble spécifique de mots.

Il existe deux façons de personnaliser un modèle de langage :

  • Option 1 : Modifiez la transcription générée par Azure AI Video Indexer. En modifiant et en corrigeant la transcription, vous entraînez un modèle de langage pour fournir des résultats améliorés à l’avenir.
  • Option 2 : Charger le ou les fichiers texte pour entraîner le modèle de langage. Le fichier de chargement peut contenir une liste de mots tels que vous souhaitez qu’ils apparaissent dans la transcription de Video Indexer ou les mots pertinents naturellement inclus dans les phrases et les paragraphes. Cette dernière approche donnant de meilleurs résultats, il est recommandé que le fichier de chargement contienne des phrases ou paragraphes complets liés à votre contenu.

Important

N’incluez pas dans le fichier de chargement les mots ou les phrases qui sont transcrits de manière incorrecte (par exemple, « communities ») car cela annule l’impact prévu. Incluez uniquement les mots tels que vous souhaitez qu’ils apparaissent (par exemple, « Kubernetes »).

Bonnes pratiques pour les modèles de langue personnalisés

Azure AI Video Indexer apprend en fonction des probabilités de combinaisons de mots. Pour en savoir plus :

  • Donnez suffisamment d’exemples concrets de phrases telles qu’elles seraient dites.
  • Placez uniquement une phrase par ligne, pas plus. Sinon, le système apprend des probabilités entre phrases.
  • Il est possible de mettre un mot en tant que phrase pour stimuler le mot contre d’autres, mais le système apprend mieux à partir de phrases complètes.
  • Lors de l’introduction de nouveaux mots ou acronymes, donnez autant d’exemples d’utilisation que possible dans une phrase complète pour fournir le plus de contexte possible au système.
  • Essayez de fournir plusieurs options d’adaptation et voyez comment elles fonctionnent pour vous.
  • Évitez de répéter plusieurs fois exactement la même phrase. Elle risque de fausser le reste de l’entrée.
  • Évitez d’inclure des symboles rares (~, # @ % &) car ils seront dis carte ed. Les phrases dans lesquelles ils apparaissent seront également ignorées.
  • Évitez les entrées trop longues, telles que des centaines de milliers de phrases, car sinon vous ne pourrez pas bénéficier pleinement de l’effet de mise en avant.