Partage via


Personnaliser un modèle de langage avec Azure AI Video Indexer

Azure AI Video Indexer prend en charge la reconnaissance vocale automatique via l’intégration au service Microsoft Custom Speech. Vous pouvez personnaliser le modèle de langue en chargeant le texte d’adaptation. Ce texte provient du domaine dont vous souhaitez que le moteur s’adapte. Une fois que vous avez entraîné votre modèle, de nouveaux mots apparaissant dans le texte d’adaptation sont reconnus, en supposant que la prononciation par défaut et le modèle de langue apprend de nouvelles séquences probables de mots. Consultez la liste des langues prises en charge par Azure AI Video Indexer dans les langues prises en charge.

Par exemple, « Kubernetes » (dans le contexte d’Azure Kubernetes service), est un mot très spécifique. Étant donné que le mot est nouveau dans Azure AI Video Indexer, il est reconnu comme « communautés ». Entraîner le modèle pour le reconnaître en tant que « Kubernetes ». Dans d’autres cas, les mots existent, mais le modèle de langage ne s’attend pas à ce qu’ils apparaissent dans un certain contexte. Par exemple, « service de conteneur » n’est pas une séquence de 2 mots qu’un modèle de langage non spécifié reconnaît comme un ensemble spécifique de mots.

Il existe deux façons de personnaliser un modèle de langage :

  • Option 1 : Modifiez la transcription générée par Azure AI Video Indexer. En modifiant et en corrigeant la transcription, vous entraînez un modèle de langage pour fournir des résultats améliorés à l’avenir.
  • Option 2 : Charger le ou les fichiers texte pour entraîner le modèle de langage. Le fichier peut contenir une liste de mots que vous souhaitez qu’ils apparaissent dans la transcription video Indexer ou les mots pertinents inclus naturellement dans les phrases et les paragraphes. Cette dernière approche donnant de meilleurs résultats, il est recommandé que le fichier de chargement contienne des phrases ou paragraphes complets liés à votre contenu.

Important

N’incluez pas les mots ou les phrases comme étant actuellement transcrits incorrectement (par exemple, « communautés ») dans le fichier de chargement, car cela annule l’impact prévu. Incluez uniquement les mots tels que vous souhaitez qu’ils apparaissent (par exemple, « Kubernetes »).

Optimiser votre modèle de langage personnalisé

Azure AI Video Indexer apprend en fonction des probabilités de combinaisons de mots. Pour en savoir plus :

  • Donnez suffisamment d’exemples concrets de phrases telles qu’elles seraient dites.
  • Placez uniquement une phrase par ligne, pas plus. Sinon, le système apprend des probabilités entre phrases.
  • Il est possible de mettre un mot en tant que phrase pour stimuler le mot contre d’autres, mais le système apprend mieux à partir de phrases complètes.
  • Lors de l’introduction de nouveaux mots ou acronymes, donnez autant d’exemples d’utilisation que possible dans une phrase complète pour fournir le plus de contexte possible au système.
  • Essayez de fournir plusieurs options d’adaptation et voyez comment elles fonctionnent pour vous.
  • Évitez de répéter plusieurs fois exactement la même phrase. Elle risque de fausser le reste de l’entrée.
  • Évitez d’inclure des symboles rares (~, # @ % &) car ils seront ignorés. Les phrases dans lesquelles ils apparaissent seront également ignorées.
  • Évitez les entrées trop longues, telles que des centaines de milliers de phrases, car sinon vous ne pourrez pas bénéficier pleinement de l’effet de mise en avant.

Prérequis

  • Compte Azure
  • Un compte Azure AI Video Indexer

Créer un modèle de langage

  1. Accédez au site web Azure AI Video Indexer et connectez-vous.
  2. Pour personnaliser un modèle dans votre compte, sélectionnez le bouton Personnalisation du modèle de contenu à gauche de la page.
  3. Sélectionnez l’onglet Langue . Vous voyez la liste des langues prises en charge.
  4. Sous la langue de votre choix, sélectionnez Ajouter un modèle.
  5. Tapez le nom du modèle de langue et appuyez sur Entrée. Cette étape crée le modèle et offre la possibilité d’y charger des fichiers texte.
  6. Pour ajouter un fichier texte, sélectionnez Ajouter un fichier. Votre explorateur de fichiers s’ouvre.
  7. Accédez et sélectionnez le fichier texte de votre choix. Vous pouvez ajouter plusieurs fichiers texte à un modèle de langue. Vous pouvez également ajouter un fichier texte en sélectionnant le bouton ... sur le côté droit du modèle de langue et en sélectionnant Ajouter un fichier.
  8. Une fois les fichiers texte chargés, sélectionnez l’option verte Entraîner.

Le processus d'apprentissage peut prendre plusieurs minutes. Une fois l’entraînement terminé, l’apprentissage s’affiche en regard du modèle. Vous pouvez afficher un aperçu, télécharger et supprimer le fichier à partir du modèle.

Utilisation d’un modèle de langage sur une nouvelle vidéo

Pour utiliser votre modèle de langage sur une nouvelle vidéo, effectuez l’une des actions suivantes :

  1. Sélectionnez le bouton Charger en haut de la page.
  2. Déposez votre fichier audio ou vidéo, ou accédez à votre fichier.
  3. Sélectionnez un modèle de langue que vous avez créé dans la liste déroulante langue source de la vidéo.
  4. Sélectionnez l’option Charger située en bas de la page. Votre nouvelle vidéo est alors indexée à l’aide de votre modèle de langage.

Utilisation d’un modèle de langage pour réindexer

  1. Connectez-vous à la page d’accueil d’Azure AI Video Indexer .
  2. Cliquez sur le bouton ... de la vidéo et sélectionnez Réindexer.
  3. Sélectionnez la liste déroulante Langue source de la vidéo, puis sélectionnez un modèle de langue que vous avez créé dans la liste.
  4. Sélectionnez le bouton Réindexer et votre vidéo sera réindexée à l’aide de votre modèle de langage.

Modifier un modèle de langage

Vous pouvez modifier un modèle de langage en modifiant son nom, en y ajoutant des fichiers et en supprimant des fichiers. Si vous ajoutez ou supprimez des fichiers du modèle de langage, vous devrez réentraîner le modèle en sélectionnant l’option Train verte.

Renommer le modèle de langage

Vous pouvez modifier le nom du modèle de langue en sélectionnant le bouton de sélection (...) situé à droite du modèle de langue et en sélectionnant Renommer. Entrez le nouveau nom.

Ajouter des fichiers

  1. Sélectionnez Ajouter un fichier. Votre explorateur de fichiers s’ouvre.
  2. Accédez et sélectionnez le fichier texte de votre choix. Vous pouvez ajouter plusieurs fichiers texte à un modèle de langue.

Vous pouvez également ajouter un fichier texte en sélectionnant le bouton de sélection (...) situé à droite du modèle de langue et en sélectionnant Ajouter un fichier.

Supprimer les fichiers

Cette action supprime complètement le fichier du modèle de langage.

  1. Sélectionnez le bouton de sélection (...) situé à droite du fichier texte.
  2. Sélectionnez Supprimer. Une nouvelle fenêtre s’affiche, vous indiquant que cette suppression ne peut pas être annulée.
  3. Sélectionnez l’option Supprimer dans la nouvelle fenêtre.

Supprimer un modèle de langage

Cette action supprime complètement le modèle de langage de votre compte. Toute vidéo qui utilisait le modèle de suppressionlLanguage conserve le même index jusqu’à ce que vous réindexiez la vidéo. Si vous réindexez la vidéo, vous pouvez affecter un nouveau modèle de langage à la vidéo. Sinon, Azure AI Video Indexer utilise son modèle par défaut pour réindexer la vidéo.

  1. Sélectionnez le bouton de sélection (...) situé à droite du modèle de langage.
  2. Sélectionnez Supprimer. Une nouvelle fenêtre s’affiche, vous indiquant que cette suppression ne peut pas être annulée.
  3. Sélectionnez l’option Supprimer dans la nouvelle fenêtre.

Personnaliser les modèles linguistiques en corrigeant les transcriptions

Azure AI Video Indexer personnalise les modèles de langage en fonction des corrections réelles que les utilisateurs effectuent sur les transcriptions de leurs vidéos. Il capture toutes les lignes que vous avez corrigées dans la transcription de votre vidéo et les ajoute à un fichier texte appelé From transcript edits. Ces modifications sont utilisées pour réentraîner le modèle de langage utilisé pour indexer la vidéo.

Les modifications effectuées dans la chronologie du widget sont également incluses.

Si vous n’avez pas spécifié de modèle de langage lors de l’indexation de cette vidéo, toutes les modifications de cette vidéo sont stockées dans un modèle de langage par défaut appelé Account adaptations dans la langue détectée de la vidéo.

Si plusieurs modifications ont été apportées à la même ligne, seule la dernière version de la ligne corrigée est utilisée pour mettre à jour le modèle de langue.

Remarque

Seules les corrections textuelles sont utilisées pour la personnalisation. Les corrections qui n’impliquent pas de mots réels (par exemple, des signes de ponctuation ou des espaces) ne sont pas incluses.

  1. Sélectionnez la vidéo que vous souhaitez modifier à partir de votre bibliothèque.
  2. Sélectionnez l’onglet Chronologie.
  3. Sélectionnez l’icône de crayon pour modifier votre transcription.
  4. Vous verrez que les corrections de transcription s’affichent sous l’onglet Langue de la page de personnalisation Con mode tente l. Pour consulter le fichier « À partir des modifications de transcription » pour chacun de vos modèles de langage, sélectionnez-le pour l’ouvrir.