Partager via


Charger des jeux de données d’entraînement et de test pour la reconnaissance vocale personnalisée

Vous avez besoin de données audio et texte pour effectuer le test de précision de la reconnaissance vocale ou de l’apprentissage de vos modèles personnalisés. Pour plus d’informations sur les types de données pris en charge pour le test ou la formation de votre modèle, voir Jeux de données de formation et de test.

Conseil

Vous pouvez également utiliser l’éditeur de transcription en ligne pour créer et affiner les jeux de données audio étiquetés.

Charger des jeux de données

Pour charger vos propres jeux de données dans Speech Studio, procédez comme suit :

  1. Connectez-vous à Speech Studio.

  2. Sélectionnez Reconnaissance vocale personnalisée> Votre nom de projet >Jeux de données Speech>Charger des données.

  3. Sélectionnez l’onglet Données d’apprentissage ou Données de test.

  4. Sélectionnez un type de jeu de données, puis Suivant.

  5. Spécifiez l’emplacement du jeu de données, puis sélectionnez Suivant. Vous pouvez choisir un fichier local ou entrer un emplacement distant, par exemple une URL d’objet blob Azure. Si vous sélectionnez l’emplacement distant et n’utilisez pas le mécanisme de sécurité des services Azure approuvés, l’emplacement distant doit être dans ce cas une URL récupérée par une simple requête GET anonyme. Par exemple, une URL SAS ou une URL accessible publiquement. Les URL qui nécessitent une autorisation supplémentaire ou qui s’attendent à une interaction utilisateur ne sont pas prises en charge.

    Remarque

    Si vous utilisez une URL d’objet blob Azure, vous pouvez garantir une sécurité maximale pour vos fichiers de jeu de données à l’aide du mécanisme de sécurité des services Azure approuvés. Vous allez utiliser les mêmes techniques que celles employées pour la transcription par lots et les URL de comptes de stockage simples de vos fichiers de jeu de données. Consultez les informations détaillées ici.

  6. Entrez le nom et la description du jeu de données, puis sélectionnez Suivant.

  7. Passez en revue vos paramètres, puis sélectionnez Enregistrer et fermer.

Une fois votre jeu de données chargé, accédez à la page Entraîner des modèles personnalisés pour entraîner un modèle personnalisé.

Avec l’interface CLI Speech et l’API REST de reconnaissance vocale, contrairement à Speech Studio, vous ne choisissez pas si un jeu de données est destiné à des tests ou à une formation au moment du chargement. Vous spécifiez comment un jeu de données est utilisé lorsque vous formez un modèle ou exécutez un test.

Bien que vous n’indiquez pas si le jeu de données est à des fins de test ou de formation, vous devez spécifier le type de jeu de données. Le type de jeu de données est utilisé pour déterminer le type de jeu de données créé. Dans certains cas, un type de jeu de données est utilisé uniquement pour le test ou la formation, mais vous ne devez pas en dépendre. Les valeurs kind de l’interface CLI Speech et de l’API REST correspondent aux options de Speech Studio, comme décrit dans le tableau suivant :

Type d’interface CLI et d’API Options Speech Studio
Acoustique Données de formation : audio + transcription manuelle
Données de test : transcription (synthèse audio automatique)
Données de test : audio + transcription étiquetée manuellement
AudioFiles Données de test : audio
Langage Données de formation : texte brut
LanguageMarkdown Données d’apprentissage : texte structuré au format Markdown
Prononcer Données de formation : prononciation
OutputFormatting Données d’apprentissage : format de sortie

Important

Vous n’utilisez pas l’interface CLI Speech ou l’API REST pour charger directement des fichiers de données. Tout d’abord, vous stockez les fichiers de jeu de données d’entraînement ou de test sur une URL accessible par l’interface CLI Speech ou l’API REST. Après avoir chargé les fichiers de données, vous pouvez utiliser l’interface CLI Speech ou l’API REST pour créer un jeu de données pour les tests vocaux personnalisés ou l’entraînement.

Pour créer un jeu de données et le connecter à un projet existant, utilisez la commande spx csr dataset create. Construisez les paramètres de la requête conformément aux instructions suivantes :

  • Définissez le paramètre project sur l’ID d’un projet existant. Ce paramètre est recommandé afin de pouvoir afficher et gérer le jeu de données dans Speech Studio. Vous pouvez exécuter la commande spx csr project list pour obtenir les projets disponibles.

  • Définissez le paramètre requis kind. L’ensemble de valeurs possible pour un type de jeu de données d’entraînement est : Acoustic, AudioFiles, Language, LanguageMarkdown et Prononciation.

  • Définissez le paramètre requis contentUrl. Ce paramètre est l’emplacement du jeu de données. Si vous n’utilisez pas le mécanisme de sécurité des services Azure approuvés (voir remarque suivante), le paramètre contentUrl doit être dans ce cas une URL récupérée par une simple requête GET anonyme. Par exemple, une URL SAS ou une URL accessible publiquement. Les URL qui nécessitent une autorisation supplémentaire ou qui s’attendent à une interaction utilisateur ne sont pas prises en charge.

    Remarque

    Si vous utilisez une URL d’objet blob Azure, vous pouvez garantir une sécurité maximale pour vos fichiers de jeu de données à l’aide du mécanisme de sécurité des services Azure approuvés. Vous allez utiliser les mêmes techniques que celles employées pour la transcription par lots et les URL de comptes de stockage simples de vos fichiers de jeu de données. Consultez les informations détaillées ici.

  • Définissez le paramètre requis language. Les paramètres régionaux du jeu de données doivent correspondre aux paramètres régionaux du projet. Vous ne pourrez plus changer de paramètres régionaux. Le paramètre language CLI Speech correspond à la propriété locale dans la requête et la réponse JSON.

  • Définissez le paramètre requis name. Ce paramètre est le nom qui est affiché dans Speech Studio. Le paramètre name CLI Speech correspond à la propriété displayName dans la requête et réponse JSON.

Voici un exemple de commande CLI Speech qui crée un jeu de données et le connecte à un projet existant :

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Vous devriez recevoir un corps de réponse au format suivant :

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

La propriété self de niveau supérieur dans le corps de la réponse est l’URI du jeu de données. Utilisez cet URI pour obtenir des détails sur le projet et les fichiers du jeu de données. Vous utilisez également cet URI pour mettre à jour ou supprimer un jeu de données.

Pour l’aide de l’interface CLI Speech avec les jeux de données, exécutez la commande suivante :

spx help csr dataset

Avec l’interface CLI Speech et l’API REST de reconnaissance vocale, contrairement à Speech Studio, vous ne choisissez pas si un jeu de données est destiné à des tests ou à une formation au moment du chargement. Vous spécifiez comment un jeu de données est utilisé lorsque vous formez un modèle ou exécutez un test.

Bien que vous n’indiquez pas si le jeu de données est à des fins de test ou de formation, vous devez spécifier le type de jeu de données. Le type de jeu de données est utilisé pour déterminer le type de jeu de données créé. Dans certains cas, un type de jeu de données est utilisé uniquement pour le test ou la formation, mais vous ne devez pas en dépendre. Les valeurs kind de l’interface CLI Speech et de l’API REST correspondent aux options de Speech Studio, comme décrit dans le tableau suivant :

Type d’interface CLI et d’API Options Speech Studio
Acoustique Données de formation : audio + transcription manuelle
Données de test : transcription (synthèse audio automatique)
Données de test : audio + transcription étiquetée manuellement
AudioFiles Données de test : audio
Langage Données de formation : texte brut
LanguageMarkdown Données d’apprentissage : texte structuré au format Markdown
Prononcer Données de formation : prononciation
OutputFormatting Données d’apprentissage : format de sortie

Important

Vous n’utilisez pas l’interface CLI Speech ou l’API REST pour charger directement des fichiers de données. Tout d’abord, vous stockez les fichiers de jeu de données d’entraînement ou de test sur une URL accessible par l’interface CLI Speech ou l’API REST. Après avoir chargé les fichiers de données, vous pouvez utiliser l’interface CLI Speech ou l’API REST pour créer un jeu de données pour les tests vocaux personnalisés ou l’entraînement.

Pour créer un jeu de données et le connecter à un projet existant, utilisez l’opération Datasets_Create de l’API REST de reconnaissance vocale. Construisez le corps de la requête conformément aux instructions suivantes :

  • Définissez la propriété project sur l’URI d’un projet existant. Cette propriété est recommandée afin de pouvoir afficher et gérer le jeu de données dans Speech Studio. Vous pouvez effectuer une requête Projects_List pour obtenir les projets disponibles.

  • Définissez la propriété requise kind. L’ensemble de valeurs possible pour un type de jeu de données d’entraînement est : Acoustic, AudioFiles, Language, LanguageMarkdown et Prononciation.

  • Définissez la propriété requise contentUrl. Cette propriété est l’emplacement du jeu de données. Si vous n’utilisez pas le mécanisme de sécurité des services Azure approuvés (voir remarque suivante), le paramètre contentUrl doit être dans ce cas une URL récupérée par une simple requête GET anonyme. Par exemple, une URL SAS ou une URL accessible publiquement. Les URL qui nécessitent une autorisation supplémentaire ou qui s’attendent à une interaction utilisateur ne sont pas prises en charge.

    Remarque

    Si vous utilisez une URL d’objet blob Azure, vous pouvez garantir une sécurité maximale pour vos fichiers de jeu de données à l’aide du mécanisme de sécurité des services Azure approuvés. Vous allez utiliser les mêmes techniques que celles employées pour la transcription par lots et les URL de comptes de stockage simples de vos fichiers de jeu de données. Consultez les informations détaillées ici.

  • Définissez la propriété requise locale. Les paramètres régionaux du jeu de données doivent correspondre aux paramètres régionaux du projet. Vous ne pourrez plus changer de paramètres régionaux.

  • Définissez la propriété requise displayName. Cette propriété est le nom qui est affiché dans Speech Studio.

Effectuez une requête HTTP POST à l’aide de l’URI, comme illustré dans l’exemple suivant. Remplacez YourSubscriptionKey par votre clé de ressource Speech, remplacez YourServiceRegion par votre région de ressource Speech et définissez les propriétés du corps de la requête comme décrit précédemment.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Vous devriez recevoir un corps de réponse au format suivant :

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

La propriété self de niveau supérieur dans le corps de la réponse est l’URI du jeu de données. Utilisez cet URI pour obtenir des détails sur le projet et les fichiers du jeu de données. Vous utilisez également cet URI pour mettre à jour ou supprimer le jeu de données.

Important

La connexion d’un jeu de données à un projet de reconnaissance vocale personnalisée n’est pas nécessaire pour entraîner et tester un modèle personnalisé à l’aide de l’API REST ou de l’interface CLI Speech. Toutefois, si le jeu de données n’est connecté à aucun projet, vous ne pouvez pas le sélectionner pour la formation ou le test dans Speech Studio.

Étapes suivantes