Personnaliser un modèle de langage avec Azure AI Video Indexer

Article
10/09/2024

Azure AI Video Indexer prend en charge la reconnaissance vocale automatique via l’intégration au service Microsoft Custom Speech. Vous pouvez personnaliser le modèle de langue en chargeant le texte d’adaptation. Ce texte provient du domaine dont vous souhaitez que le moteur s’adapte. Une fois que vous avez entraîné votre modèle, de nouveaux mots apparaissant dans le texte d’adaptation sont reconnus, en supposant que la prononciation par défaut et le modèle de langue apprend de nouvelles séquences probables de mots. Consultez la liste des langues prises en charge par Azure AI Video Indexer dans les langues prises en charge.

Par exemple, « Kubernetes » (dans le contexte d’Azure Kubernetes service), est un mot très spécifique. Étant donné que le mot est nouveau dans Azure AI Video Indexer, il est reconnu comme « communautés ». Entraîner le modèle pour le reconnaître en tant que « Kubernetes ». Dans d’autres cas, les mots existent, mais le modèle de langage ne s’attend pas à ce qu’ils apparaissent dans un certain contexte. Par exemple, « service de conteneur » n’est pas une séquence de 2 mots qu’un modèle de langage non spécifié reconnaît comme un ensemble spécifique de mots.

Il existe deux façons de personnaliser un modèle de langage :

Option 1 : Modifiez la transcription générée par Azure AI Video Indexer. En modifiant et en corrigeant la transcription, vous entraînez un modèle de langage pour fournir des résultats améliorés à l’avenir.
Option 2 : Charger le ou les fichiers texte pour entraîner le modèle de langage. Le fichier peut contenir une liste de mots que vous souhaitez qu’ils apparaissent dans la transcription video Indexer ou les mots pertinents inclus naturellement dans les phrases et les paragraphes. Cette dernière approche donnant de meilleurs résultats, il est recommandé que le fichier de chargement contienne des phrases ou paragraphes complets liés à votre contenu.

Important

N’incluez pas les mots ou les phrases comme étant actuellement transcrits incorrectement (par exemple, « communautés ») dans le fichier de chargement, car cela annule l’impact prévu. Incluez uniquement les mots tels que vous souhaitez qu’ils apparaissent (par exemple, « Kubernetes »).

Optimiser votre modèle de langage personnalisé

Azure AI Video Indexer apprend en fonction des probabilités de combinaisons de mots. Pour en savoir plus :

Donnez suffisamment d’exemples concrets de phrases telles qu’elles seraient dites.
Placez uniquement une phrase par ligne, pas plus. Sinon, le système apprend des probabilités entre phrases.
Il est possible de mettre un mot en tant que phrase pour stimuler le mot contre d’autres, mais le système apprend mieux à partir de phrases complètes.
Lors de l’introduction de nouveaux mots ou acronymes, donnez autant d’exemples d’utilisation que possible dans une phrase complète pour fournir le plus de contexte possible au système.
Essayez de fournir plusieurs options d’adaptation et voyez comment elles fonctionnent pour vous.
Évitez de répéter plusieurs fois exactement la même phrase. Elle risque de fausser le reste de l’entrée.
Évitez d’inclure des symboles rares (~, # @ % &) car ils seront ignorés. Les phrases dans lesquelles ils apparaissent seront également ignorées.
Évitez les entrées trop longues, telles que des centaines de milliers de phrases, car sinon vous ne pourrez pas bénéficier pleinement de l’effet de mise en avant.

Prérequis

Compte Azure
Un compte Azure AI Video Indexer

Portail Web
API

Créer un modèle de langage

Accédez au site web Azure AI Video Indexer et connectez-vous.
Pour personnaliser un modèle dans votre compte, sélectionnez le bouton Personnalisation du modèle de contenu à gauche de la page.
Sélectionnez l’onglet Langue . Vous voyez la liste des langues prises en charge.
Sous la langue de votre choix, sélectionnez Ajouter un modèle.
Tapez le nom du modèle de langue et appuyez sur Entrée. Cette étape crée le modèle et offre la possibilité d’y charger des fichiers texte.
Pour ajouter un fichier texte, sélectionnez Ajouter un fichier. Votre explorateur de fichiers s’ouvre.
Accédez et sélectionnez le fichier texte de votre choix. Vous pouvez ajouter plusieurs fichiers texte à un modèle de langue. Vous pouvez également ajouter un fichier texte en sélectionnant le bouton ... sur le côté droit du modèle de langue et en sélectionnant Ajouter un fichier.
Une fois les fichiers texte chargés, sélectionnez l’option verte Entraîner.

Le processus d'apprentissage peut prendre plusieurs minutes. Une fois l’entraînement terminé, l’apprentissage s’affiche en regard du modèle. Vous pouvez afficher un aperçu, télécharger et supprimer le fichier à partir du modèle.

Utilisation d’un modèle de langage sur une nouvelle vidéo

Pour utiliser votre modèle de langage sur une nouvelle vidéo, effectuez l’une des actions suivantes :

Sélectionnez le bouton Charger en haut de la page.
Déposez votre fichier audio ou vidéo, ou accédez à votre fichier.
Sélectionnez un modèle de langue que vous avez créé dans la liste déroulante langue source de la vidéo.
Sélectionnez l’option Charger située en bas de la page. Votre nouvelle vidéo est alors indexée à l’aide de votre modèle de langage.

Utilisation d’un modèle de langage pour réindexer

Connectez-vous à la page d’accueil d’Azure AI Video Indexer .
Cliquez sur le bouton ... de la vidéo et sélectionnez Réindexer.
Sélectionnez la liste déroulante Langue source de la vidéo, puis sélectionnez un modèle de langue que vous avez créé dans la liste.
Sélectionnez le bouton Réindexer et votre vidéo sera réindexée à l’aide de votre modèle de langage.

Modifier un modèle de langage

Vous pouvez modifier un modèle de langage en modifiant son nom, en y ajoutant des fichiers et en supprimant des fichiers. Si vous ajoutez ou supprimez des fichiers du modèle de langage, vous devrez réentraîner le modèle en sélectionnant l’option Train verte.

Renommer le modèle de langage

Vous pouvez modifier le nom du modèle de langue en sélectionnant le bouton de sélection (...) situé à droite du modèle de langue et en sélectionnant Renommer. Entrez le nouveau nom.

Ajouter des fichiers

Sélectionnez Ajouter un fichier. Votre explorateur de fichiers s’ouvre.
Accédez et sélectionnez le fichier texte de votre choix. Vous pouvez ajouter plusieurs fichiers texte à un modèle de langue.

Vous pouvez également ajouter un fichier texte en sélectionnant le bouton de sélection (...) situé à droite du modèle de langue et en sélectionnant Ajouter un fichier.

Supprimer les fichiers

Cette action supprime complètement le fichier du modèle de langage.

Sélectionnez le bouton de sélection (...) situé à droite du fichier texte.
Sélectionnez Supprimer. Une nouvelle fenêtre s’affiche, vous indiquant que cette suppression ne peut pas être annulée.
Sélectionnez l’option Supprimer dans la nouvelle fenêtre.

Supprimer un modèle de langage

Cette action supprime complètement le modèle de langage de votre compte. Toute vidéo qui utilisait le modèle de suppressionlLanguage conserve le même index jusqu’à ce que vous réindexiez la vidéo. Si vous réindexez la vidéo, vous pouvez affecter un nouveau modèle de langage à la vidéo. Sinon, Azure AI Video Indexer utilise son modèle par défaut pour réindexer la vidéo.

Sélectionnez le bouton de sélection (...) situé à droite du modèle de langage.
Sélectionnez Supprimer. Une nouvelle fenêtre s’affiche, vous indiquant que cette suppression ne peut pas être annulée.
Sélectionnez l’option Supprimer dans la nouvelle fenêtre.

Personnaliser les modèles linguistiques en corrigeant les transcriptions

Azure AI Video Indexer personnalise les modèles de langage en fonction des corrections réelles que les utilisateurs effectuent sur les transcriptions de leurs vidéos. Il capture toutes les lignes que vous avez corrigées dans la transcription de votre vidéo et les ajoute à un fichier texte appelé From transcript edits. Ces modifications sont utilisées pour réentraîner le modèle de langage utilisé pour indexer la vidéo.

Les modifications effectuées dans la chronologie du widget sont également incluses.

Si vous n’avez pas spécifié de modèle de langage lors de l’indexation de cette vidéo, toutes les modifications de cette vidéo sont stockées dans un modèle de langage par défaut appelé Account adaptations dans la langue détectée de la vidéo.

Si plusieurs modifications ont été apportées à la même ligne, seule la dernière version de la ligne corrigée est utilisée pour mettre à jour le modèle de langue.

Remarque

Seules les corrections textuelles sont utilisées pour la personnalisation. Les corrections qui n’impliquent pas de mots réels (par exemple, des signes de ponctuation ou des espaces) ne sont pas incluses.

Sélectionnez la vidéo que vous souhaitez modifier à partir de votre bibliothèque.
Sélectionnez l’onglet Chronologie.
Sélectionnez l’icône de crayon pour modifier votre transcription.
Vous verrez que les corrections de transcription s’affichent sous l’onglet Langue de la page de personnalisation Con mode tente l. Pour consulter le fichier « À partir des modifications de transcription » pour chacun de vos modèles de langage, sélectionnez-le pour l’ouvrir.

Créer un modèle de langage

La requête Créer un modèle de langage crée un modèle de langage personnalisé pour le compte spécifié. Vous pouvez charger des fichiers pour le modèle de langage à l’aide de cette requête. Vous pouvez également créer le modèle de langage ici et charger des fichiers pour le modèle ultérieurement en mettant à jour le modèle de langage.

Vous devez charger des fichiers dans le corps à l’aide de FormData en plus de fournir des valeurs pour les paramètres requis. Il existe deux façons de définir la paire de clés pour cette tâche :

La clé est le nom de fichier et la valeur est le fichier txt.
La clé est le nom de fichier et la valeur est une URL pour le fichier txt.

Remarque

Vous devez néanmoins former le modèle avec ses fichiers pour lui permettre d’en apprendre le contenu.

Exemple de réponse

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

Entraîner un modèle de langage

La requête Train Language Model entraîne un modèle de langage personnalisé pour le compte spécifié avec le contenu des fichiers chargés et activés dans le modèle de langue.

Remarque

Vous devez d’abord créer le modèle de langage et charger ses fichiers. Vous pouvez charger des fichiers lors de la création du modèle de langue ou en mettant à jour le modèle de langue.

Exemple de réponse

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": false,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

Il id s’agit d’un ID unique utilisé pour distinguer les modèles de langage, tandis qu’il languageModelId est utilisé à la fois pour charger une vidéo à indexer et réindexer des requêtes vidéo (également appelées linguisticModelId dans les requêtes de chargement/réindexation d’Azure AI Video Indexer).

Supprimer un modèle de langage

La demande Supprimer le modèle de langage supprime un modèle de langage personnalisé du compte spécifié. Toute vidéo qui utilisait le modèle de langage supprimé conserve le même index jusqu’à ce que vous réindexiez la vidéo. Si vous réindexez la vidéo, vous pouvez lui assigner un nouveau modèle de langage. Sinon, Azure AI Video Indexer utilise son modèle par défaut pour réindexer la vidéo.

Exemple de réponse

Il n’existe aucun contenu retourné lorsque le modèle de langage est supprimé avec succès.

Mettre à jour un modèle de langage

La demande Update Language Model met à jour un modèle de personne de langue personnalisé dans le compte spécifié.

Remarque

Vous devez avoir déjà créé le modèle de langage. Vous pouvez utiliser cet appel pour activer ou désactiver tous les fichiers du modèle, mettre à jour le nom du modèle linguistique, et charger des fichiers à ajouter au modèle linguistique.

Pour charger des fichiers à ajouter au modèle de langage, vous devez charger des fichiers dans le corps à l’aide de FormData en plus de fournir des valeurs pour les paramètres requis ci-dessus. Il existe deux façons d'effectuer cette tâche :

La clé est le nom de fichier et la valeur est le fichier txt.
La clé est le nom de fichier et la valeur est une URL pour le fichier txt.

Exemple de réponse

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

Utilisez l’id des fichiers retournée dans la réponse pour télécharger le contenu du fichier.

Mettre à jour un fichier à partir d’un modèle de langage

La demande de fichier de modèle de langage de mise à jour vous permet de mettre à jour le nom et enable l’état d’un fichier dans un modèle de langage personnalisé dans le compte spécifié.

Exemple de réponse

{
  "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
  "name": "RenamedFile",
  "enable": false,
  "creator": "John Doe",
  "creationTime": "2018-04-27T20:10:10.5233333"
}

Utilisez l’id du fichier retourné dans la réponse pour télécharger le contenu du fichier.

Obtenir un modèle de langage spécifique

La requête Get Language Model retourne des informations sur le modèle de langue spécifié dans le compte spécifié, comme la langue et les fichiers qui se trouvent dans le modèle de langue.

Exemple de réponse

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

Utilisez l’id du fichier retourné dans la réponse pour télécharger le contenu du fichier.

Obtenir tous les modèles de langage

La requête Get Language Models retourne tous les modèles de langage personnalisés dans le compte spécifié dans une liste.

Exemple de réponse

[
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
        "name": "TestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000000",
        "files": [
        {
            "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
            "name": "hellofile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.6733333"
        },
        {
            "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
            "name": "worldfile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.86"
        }
        ]
    },
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a892",
        "name": "AnotherTestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000001",
        "files": []
    }
]

Supprimer un fichier d’un modèle de langage

La demande supprimer le fichier de modèle de langage supprime le fichier spécifié du modèle de langue spécifié dans le compte spécifié.

Exemple de réponse

Il n’existe aucun contenu retourné lorsque le fichier est supprimé du modèle de langage avec succès.

Obtenir les métadonnées d’un fichier à partir d’un modèle linguistique

La requête Obtenir les données de fichier de modèle linguistique retourne le contenu et les métadonnées du fichier spécifié à partir du modèle de langue choisi dans votre compte.

Exemple de réponse

{
    "content": "hello\r\nworld",
    "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
    "name": "Hello",
    "enable": true,
    "creator": "John Doe",
    "creationTime": "2018-04-27T20:10:10.5233333"
}

Remarque

Le contenu de cet exemple de fichier est les mots « hello » et « world » dans deux lignes distinctes.

Télécharger un fichier à partir d’un modèle de langage

La demande télécharger le contenu du fichier de modèle de langue télécharge un fichier texte contenant le contenu du fichier spécifié à partir du modèle de langue spécifié dans le compte spécifié. Ce fichier texte doit correspondre au contenu du fichier texte chargé à l’origine.

Exemple de réponse

La réponse est le téléchargement d’un fichier texte avec le contenu du fichier au format JSON.

Partage via

Personnaliser un modèle de langage avec Azure AI Video Indexer

Optimiser votre modèle de langage personnalisé

Prérequis

Créer un modèle de langage

Utilisation d’un modèle de langage sur une nouvelle vidéo

Utilisation d’un modèle de langage pour réindexer

Modifier un modèle de langage

Renommer le modèle de langage

Ajouter des fichiers

Supprimer les fichiers

Supprimer un modèle de langage

Personnaliser les modèles linguistiques en corrigeant les transcriptions

Créer un modèle de langage

Exemple de réponse

Entraîner un modèle de langage

Exemple de réponse

Supprimer un modèle de langage

Exemple de réponse

Mettre à jour un modèle de langage

Exemple de réponse

Mettre à jour un fichier à partir d’un modèle de langage

Exemple de réponse

Obtenir un modèle de langage spécifique

Exemple de réponse

Obtenir tous les modèles de langage

Exemple de réponse

Supprimer un fichier d’un modèle de langage

Exemple de réponse

Obtenir les métadonnées d’un fichier à partir d’un modèle linguistique

Exemple de réponse

Télécharger un fichier à partir d’un modèle de langage

Exemple de réponse

Commentaires

Ressources supplémentaires