Personnaliser un modèle de reconnaissance vocale

2025-06-05

Remarque

La personnalisation du modèle speech, y compris la formation de prononciation, est disponible dans les comptes d’évaluation Azure Video Indexer et les comptes Resource Manager. Les comptes classiques ne prennent pas en charge cette fonctionnalité. Pour savoir comment utiliser l’expérience de langue personnalisée, consultez Personnaliser un modèle de langage.

Azure AI Video Indexer vous permet de créer des modèles vocaux personnalisés pour personnaliser la reconnaissance vocale en chargeant des jeux de données utilisés pour créer un modèle vocal. Cet article décrit les étapes à suivre via le site web Video Indexer. Vous pouvez également utiliser l’API, comme décrit dans Personnaliser le modèle speech à l’aide de l’API.

Pour obtenir une vue d’ensemble détaillée et des meilleures pratiques pour les modèles vocaux personnalisés, consultez Personnaliser un modèle speech avec Azure AI Video Indexer.

Prérequis

Lisez le guide des meilleures pratiques de formation du modèle Speech.
un compte Azure ;
Un compte Azure AI Video Indexer

Portail Web
API

Créer un jeu de données

Comme tous les modèles personnalisés doivent contenir un jeu de données, commencez par le processus de création et de gestion des jeux de données.

Sélectionnez le bouton Personnalisation du modèle.
Sélectionnez l’onglet Speech (nouveau).
Sélectionnez Charger le jeu de données.
Sélectionnez Texte brut ou Prononciation dans le menu déroulant Type de jeu de données. Chaque modèle speech doit avoir un jeu de données de texte brut et peut éventuellement avoir un jeu de données de prononciation.
Sélectionnez Parcourir et sélectionnez le fichier de jeu de données. Vous ne pouvez en choisir qu’un.
Sélectionnez une langue pour le modèle. Choisissez la langue parlée dans les fichiers multimédias que vous prévoyez d’indexer avec ce modèle. Le nom du jeu de données est prérempli avec le nom du fichier, mais vous pouvez modifier le nom.
Vous pouvez éventuellement ajouter une description du jeu de données. Il peut être utile de distinguer chaque jeu de données si vous prévoyez d’avoir plusieurs jeux de données.
Sélectionnez Téléverser. Une fois la création du jeu de données terminée, vous pouvez l’utiliser pour l’apprentissage et la création de nouveaux modèles.

Examiner et mettre à jour un jeu de données

Vous pouvez afficher un jeu de données et ses propriétés en :

Clic sur le nom du jeu de données
Survoler le jeu de données
Sélection des points de suspension

Ensuite, sélectionnez Afficher le jeu de données.

Vous pouvez ensuite afficher le nom, la description, la langue et l’état du jeu de données, ainsi que les propriétés suivantes :

Nombre de lignes : indique le nombre de lignes correctement chargées en dehors du nombre total de lignes dans le fichier. Si le fichier entier est chargé avec succès les nombres correspondent (par exemple, 10 sur 10 normalisés). Si les nombres ne correspondent pas (par exemple, 7 sur 10 normalisés), cela signifie que seules certaines lignes ont été correctement chargées et que le reste a rencontré des erreurs. Les causes courantes des erreurs sont des problèmes de mise en forme d’une ligne, tels que l’espacement d’un onglet entre chaque mot dans un fichier de prononciation. L’examen des données de texte brut et de prononciation pour les articles d’apprentissage doit être utile pour trouver le problème. Pour résoudre la cause, passez en revue les détails de l’erreur, qui sont contenus dans le rapport. Sélectionnez Afficher le rapport pour afficher les détails d’erreur concernant les lignes qui ne se chargent pas correctement (errorKind). Vous pouvez également l’afficher en sélectionnant l’onglet Rapport .

ID de jeu de données : chaque jeu de données a un GUID unique, ce qui est nécessaire lors de l’utilisation de l’API pour les opérations qui référencent le jeu de données.

Texte brut (normalisé) : il contient le texte normalisé du fichier de jeu de données chargé. Le texte normalisé est le texte reconnu sous forme simple sans mise en forme.

Modifier les détails : pour modifier le nom ou la description d’un jeu de données, lorsque vous pointez sur le jeu de données, sélectionnez les points de suspension, puis sélectionnez Modifier les détails. Vous pouvez ensuite modifier le nom et la description du jeu de données.

Remarque

Les données d’un jeu de données ne peuvent pas être modifiées ou mises à jour une fois le jeu de données chargé. Si vous devez modifier ou mettre à jour les données dans un jeu de données, téléchargez le jeu de données, effectuez les modifications, enregistrez le fichier et chargez le nouveau fichier de jeu de données.

Télécharger : pour télécharger un fichier de jeu de données, lorsque vous pointez sur le jeu de données, sélectionnez les points de suspension, puis sélectionnez Télécharger. Lorsque vous consultez le jeu de données, vous pouvez sélectionner Télécharger, puis choisir de télécharger soit le fichier du jeu de données, soit le rapport de téléchargement au format JSON.

Supprimer : pour supprimer un jeu de données, lorsque vous pointez sur le jeu de données, sélectionnez les points de suspension, puis sélectionnez Supprimer.

Créer un modèle de reconnaissance vocale personnalisée

Les jeux de données sont utilisés dans la création et l’apprentissage des modèles. Après avoir créé un jeu de données de texte brut, vous pouvez créer et commencer à utiliser un modèle de reconnaissance vocale personnalisé.

Gardez à l’esprit les points suivants lorsque vous créez et utilisez des modèles vocaux personnalisés :

Un nouveau modèle doit inclure au moins un jeu de données de texte brut et peut avoir plusieurs jeux de données de texte brut.
Il est facultatif d’inclure un jeu de données de prononciation et aucun autre ne peut être inclus.
Une fois qu’un modèle est créé, vous ne pouvez pas y ajouter d’autres jeux de données ni y effectuer de modifications. Si vous devez ajouter ou modifier des jeux de données, créez un modèle.
Si vous indexez une vidéo à l’aide d’un modèle de reconnaissance vocale personnalisée, puis supprimez le modèle, la transcription n’est pas affectée, sauf si vous effectuez une réindexation.
Si vous avez supprimé un jeu de données utilisé pour entraîner un modèle personnalisé, il continue à l’utiliser jusqu’à ce que le modèle speech soit supprimé. La raison en est que le modèle de parole a été entraîné par l'ensemble de données.
Si vous supprimez un modèle personnalisé, il n’affecte pas la transcription vidéo pour les vidéos déjà indexées à l’aide du modèle.

Entraîner un modèle

Remarque

Une fois qu’un modèle est créé, les jeux de données ne peuvent pas être ajoutés. Un modèle ne peut contenir que des jeux de données du même langage.

Il existe deux façons d’entraîner un modèle , par le biais de l’onglet jeu de données et de l’onglet modèle.

Entraîner un modèle via l’onglet Jeux de données

Affichez la liste des jeux de données.
Sélectionnez un jeu de données de texte brut. Sélectionnez ensuite le symbole Entraîner un nouveau modèle .
Sélectionnez Entraîner un nouveau modèle.
Entrez un nom pour le modèle, une langue et ajoutez éventuellement une description.
Sélectionnez l’onglet Jeux de données
Sélectionnez les jeux de données que vous souhaitez inclure dans le modèle.
Sélectionnez Créer et former.

Entraîner un modèle par le biais de l’onglet Modèles

Sélectionnez l’onglet Modèles.
Sélectionnez l'icône Entraîner un nouveau modèle.
Sélectionnez les jeux de données que vous souhaitez faire partie du modèle.
Entrez un nom pour le modèle, une langue et ajoutez éventuellement une description.
Sélectionnez l'onglet Jeux de données.
Sélectionnez les jeux de données que vous souhaitez inclure dans le modèle.
Sélectionnez Créer et former.

Examiner et mettre à jour un modèle

Afficher le modèle : vous pouvez afficher un modèle et ses propriétés en sélectionnant le nom du modèle ou lorsque vous pointez sur le modèle. Sélectionnez les points de suspension (...), puis sélectionnez Afficher le Modèle.

Vous voyez ensuite dans l’onglet Détails le nom, la description, la langue et l’état du modèle, ainsi que les propriétés suivantes :

ID de modèle : chaque modèle a un GUID unique, ce qui est nécessaire lors de l’utilisation de l’API pour les opérations qui référencent le modèle.

Créé le : date de création du modèle.

Modifier les détails : lorsque vous pointez sur le modèle, pour modifier le nom ou la description d’un modèle, sélectionnez l’icône des trois points, puis sélectionnez Modifier les détails. Vous pouvez ensuite modifier le nom et la description du modèle.

Remarque

Seul le nom et la description du modèle peuvent être modifiés. Si vous souhaitez apporter des modifications à ses jeux de données ou ajouter des jeux de données, un nouveau modèle doit être créé.

Supprimer : pour supprimer un modèle, lorsque vous pointez sur le jeu de données, sélectionnez les points de suspension, puis sélectionnez Supprimer.

Jeux de données inclus : sélectionnez l’onglet Jeux de données inclus pour afficher les jeux de données du modèle.

Utiliser un modèle de langage personnalisé lors de l’indexation d’une vidéo

Un modèle de langage personnalisé n’est pas utilisé par défaut pour les travaux d’indexation. Il doit donc être sélectionné pendant le processus de chargement d’index.

Pendant le processus de chargement, sélectionnez votre source de modèle de langage personnalisé dans le menu déroulant de langue .
Sélectionnez Téléverser.

Les mêmes étapes s’appliquent lorsque vous souhaitez réindexer une vidéo avec un modèle personnalisé.

Le tableau suivant fournit des descriptions pour certains des paramètres utilisés avec les demandes de modèle speech :

Nom	Tapez	Description
`displayName`	chaîne	Nom souhaité du jeu de données/du modèle.
`locale`	chaîne	Code de langage du jeu de données/du modèle. Pour obtenir la liste complète, consultez la prise en charge linguistique.
`kind`	entier	0 pour un jeu de données de texte brut, 1 pour un jeu de données de prononciation.
`description`	chaîne	Description facultative du jeu de données/du modèle.
`contentUrl`	URI	URL du fichier source utilisé dans la création du jeu de données.
`customProperties`	objet	Propriétés facultatives du jeu de données/du modèle.

Créer un jeu de données speech

Vous pouvez créer une requête d’API Créer un jeu de données Speech pour créer un jeu de données pour entraîner un modèle speech. Chargez un fichier utilisé pour créer un jeu de données avec cette requête. Le contenu d’un jeu de données ne peut pas être modifié après sa création.

Définissez les paramètres dans le corps de la requête, y compris une URL vers le fichier texte à charger. Les champs de propriétés personnalisées et de description sont facultatifs. Voici un exemple de corps de requête :

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Exemple de réponse

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Créer un modèle de discours

Vous pouvez créer une requête d’API Créer un modèle speech pour créer et entraîner un modèle speech personnalisé. Utilisez-le pour améliorer la précision de transcription de vos vidéos. Il doit contenir au moins un jeu de données de texte brut. Il peut éventuellement avoir des jeux de données de prononciation. Créez-le avec tous les fichiers de jeu de données pertinents en tant que jeux de données d’un modèle ne peuvent pas être ajoutés ou mis à jour après sa création.

Définissez les paramètres dans le corps de la requête, y compris une liste de chaînes correspondant aux jeux de données que le modèle doit inclure. Les champs de propriétés personnalisées et de description sont facultatifs. Voici un exemple de corps de requête :

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Exemple de réponse

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obtenir un jeu de données vocales

Vous pouvez utiliser un appel d’API Get Speech Dataset pour retourner des informations pour le jeu de données spécifié.

Exemple de réponse

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Obtenir des fichiers de jeux de données vocales

La requête Get Speech Dataset Files retourne les fichiers et les métadonnées du jeu de données spécifié.

Exemple de réponse

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Obtenir les jeux de données de compte spécifiés

Vous pouvez utiliser une demande d’API Get Speech Datasets pour retourner des informations pour tous les jeux de données de comptes spécifiés.

Exemple de réponse

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Obtenir le modèle de reconnaissance vocale spécifié

Vous pouvez utiliser une demande d’API Get Speech Model pour retourner des informations pour le modèle spécifié.

Exemple de réponse

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obtenir les modèles vocaux de comptes spécifiés

Vous pouvez utiliser une demande d’API Get Speech Models pour retourner des informations pour tous les modèles du compte spécifié.

Exemple de réponse

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Supprimer le jeu de données vocales

Vous pouvez utiliser une demande d’API Supprimer le jeu de données Speech pour supprimer le jeu de données spécifié. Tout modèle formé avec le jeu de données supprimé continue d’être disponible jusqu’à ce que le modèle soit supprimé. Vous ne pouvez pas supprimer un jeu de données lorsqu’il est utilisé pour l’indexation ou l’entraînement.

Exemple de réponse

Il n’existe aucun contenu retourné lorsque le jeu de données est supprimé avec succès.

Supprimer un modèle de reconnaissance vocale

Vous pouvez utiliser une demande d’API Delete Speech Model pour supprimer le modèle vocal spécifié. Vous ne pouvez pas supprimer un modèle lorsqu’il est utilisé pour l’indexation ou l’entraînement.

Réponse

Il n’existe aucun contenu retourné lorsque le modèle de reconnaissance vocale est supprimé avec succès.

Partage via

Personnaliser un modèle de reconnaissance vocale

Prérequis

Créer un jeu de données

Examiner et mettre à jour un jeu de données

Créer un modèle de reconnaissance vocale personnalisée

Entraîner un modèle

Entraîner un modèle via l’onglet Jeux de données

Entraîner un modèle par le biais de l’onglet Modèles

Examiner et mettre à jour un modèle

Utiliser un modèle de langage personnalisé lors de l’indexation d’une vidéo

Commentaires

Ressources supplémentaires