Partage via


Personnaliser un modèle de langage avec Azure AI Video Indexer

Avertissement

Au cours de la dernière année, Azure AI Video Indexer (VI) a annoncé la suppression de sa dépendance vis-à-vis d’Azure Media Services (AMS) en raison de sa mise hors service. Les ajustements et modifications des fonctionnalités ont été annoncés et un guide de migration a été fourni.

L’échéance de la migration a été le 30 juin 2024. VI a étendu l’échéance de mise à jour/migration afin de pouvoir mettre à jour votre compte VI et opter pour la migration des ressources AMS VI jusqu’au 31 août 2024.

Toutefois, après le 30 juin, si vous n’avez pas mis à jour votre compte VI, vous ne pourrez pas indexer de nouvelles vidéos et vous serez en mesure de lire des vidéos qui n’ont pas été migrées. Si vous mettez à jour votre compte après le 30 juin, vous pouvez reprendre l’indexation immédiatement, mais vous ne pourrez pas lire les vidéos indexées avant la mise à jour du compte tant qu’ils ne sont pas migrés via la migration AMS VI.

Azure AI Video Indexer prend en charge la reconnaissance vocale automatique via l’intégration au service Microsoft Custom Speech. Vous pouvez personnaliser le modèle de langue en chargeant le texte d’adaptation. Ce texte provient du domaine dont vous souhaitez que le moteur s’adapte. Une fois que vous avez entraîné votre modèle, de nouveaux mots apparaissant dans le texte d’adaptation sont reconnus, en supposant que la prononciation par défaut et le modèle de langue apprend de nouvelles séquences probables de mots. Consultez la liste des langues prises en charge par Azure AI Video Indexer dans les langues prises en charge.

Par exemple, « Kubernetes » (dans le contexte d’Azure Kubernetes service), est un mot très spécifique. Étant donné que le mot est nouveau dans Azure AI Video Indexer, il est reconnu comme « communautés ». Vous devez entraîner le modèle pour le reconnaître comme « Kubernetes ». Dans d’autres cas, les mots existent, mais le modèle de langage ne s’attend pas à ce qu’ils apparaissent dans un certain contexte. Par exemple, « service de conteneur » n’est pas une séquence de 2 mots qu’un modèle de langage non spécifié reconnaît comme un ensemble spécifique de mots.

Il existe deux façons de personnaliser un modèle de langage :

  • Option 1 : Modifiez la transcription générée par Azure AI Video Indexer. En modifiant et en corrigeant la transcription, vous entraînez un modèle de langage pour fournir des résultats améliorés à l’avenir.
  • Option 2 : Charger le ou les fichiers texte pour entraîner le modèle de langage. Le fichier de chargement peut contenir une liste de mots tels que vous souhaitez qu’ils apparaissent dans la transcription de Video Indexer ou les mots pertinents naturellement inclus dans les phrases et les paragraphes. Cette dernière approche donnant de meilleurs résultats, il est recommandé que le fichier de chargement contienne des phrases ou paragraphes complets liés à votre contenu.

Important

N’incluez pas dans le fichier de chargement les mots ou les phrases qui sont transcrits de manière incorrecte (par exemple, « communities ») car cela annule l’impact prévu. Incluez uniquement les mots tels que vous souhaitez qu’ils apparaissent (par exemple, « Kubernetes »).

Bonnes pratiques pour les modèles de langue personnalisés

Azure AI Video Indexer apprend en fonction des probabilités de combinaisons de mots. Pour en savoir plus :

  • Donnez suffisamment d’exemples concrets de phrases telles qu’elles seraient dites.
  • Placez uniquement une phrase par ligne, pas plus. Sinon, le système apprend des probabilités entre phrases.
  • Il est possible de mettre un mot en tant que phrase pour stimuler le mot contre d’autres, mais le système apprend mieux à partir de phrases complètes.
  • Lors de l’introduction de nouveaux mots ou acronymes, donnez autant d’exemples d’utilisation que possible dans une phrase complète pour fournir le plus de contexte possible au système.
  • Essayez de fournir plusieurs options d’adaptation et voyez comment elles fonctionnent pour vous.
  • Évitez de répéter plusieurs fois exactement la même phrase. Elle risque de fausser le reste de l’entrée.
  • Évitez d’inclure des symboles rares (~, # @ % &) car ils seront ignorés. Les phrases dans lesquelles ils apparaissent seront également ignorées.
  • Évitez les entrées trop longues, telles que des centaines de milliers de phrases, car sinon vous ne pourrez pas bénéficier pleinement de l’effet de mise en avant.