Partager via


Créer un projet de voix personnalisée

Les projets de reconnaissance vocale personnalisée contiennent des modèles, des jeux de données de formation et de test et des points de terminaison de déploiement. Chaque projet est spécifique à un paramètre régional. Par exemple, vous pourriez créer un projet utilisant l’anglais aux États-Unis.

Création d’un projet

Pour créer un projet de reconnaissance vocale personnalisée, procédez comme suit :

  1. Connectez-vous à Speech Studio.

  2. Sélectionnez l’abonnement et la ressource Speech avec lesquels vous souhaitez travailler.

    Important

    Si vous prévoyez d’entraîner un modèle personnalisé avec des données audio, choisissez une région de ressource Speech dotée de matériel dédié à l’entraînement de données audio. Pour plus d’informations, consultez les notes de bas de page du tableau des régions.

  3. Sélectionnez Custom Speech>Créer un projet.

  4. Suivez les instructions fournies par l’Assistant pour créer votre projet.

Sélectionnez le nouveau projet par nom, ou Accéder au projet. Vous verrez ces éléments de menu dans le volet de gauche : Jeux de données de reconnaissance vocale, Former des modèles personnalisés, Tester des modèles et Déployer des modèles.

Pour créer un projet, utilisez la commande spx csr project create. Construisez les paramètres de la requête conformément aux instructions suivantes :

  • Définissez le paramètre requis language. Les paramètres régionaux du projet et des jeux de données autonomes doivent être identiques. Vous ne pourrez plus changer de paramètres régionaux. Le paramètre language CLI Speech correspond à la propriété locale dans la requête et la réponse JSON.
  • Définissez le paramètre requis name. C’est le nom qui est affiché dans Speech Studio. Le paramètre name CLI Speech correspond à la propriété displayName dans la requête et la réponse JSON.

Voici un exemple de commande Cli Speech qui crée un projet :

spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"

Vous devriez recevoir un corps de réponse au format suivant :

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

La propriété self de niveau supérieur dans le corps de la réponse est l’URI du projet. Utilisez cet URI pour obtenir des détails sur les évaluations, jeux de données, modèles, points de terminaison et transcriptions du projet. Vous utilisez également cet URI pour mettre à jour ou supprimer un projet.

Pour l’aide de l’interface CLI Speech avec les projets, exécutez la commande suivante :

spx help csr project

Pour créer un projet, utilisez l’opération Projects_Create de l’API REST de reconnaissance vocale. Construisez le corps de la requête conformément aux instructions suivantes :

  • Définissez la propriété requise locale. Il doit s’agir des paramètres régionaux des jeux de données autonomes. Vous ne pourrez plus changer de paramètres régionaux.
  • Définissez la propriété requise displayName. C’est le nom de projet qui est affiché dans Speech Studio.

Effectuez une requête HTTP POST à l’aide de l’URI, comme illustré dans l’exemple Projects_Create suivant. Remplacez YourSubscriptionKey par votre clé de ressource Speech, remplacez YourServiceRegion par votre région de ressource Speech et définissez les propriétés du corps de la requête comme décrit précédemment.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"

Vous devriez recevoir un corps de réponse au format suivant :

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

La propriété self de niveau supérieur dans le corps de la réponse est l’URI du projet. Utilisez cet URI pour obtenir des détails sur les évaluations, jeux de données, modèles, points de terminaison et transcriptions du projet. Vous utilisez également cet URI pour mettre à jour ou supprimer un projet.

Choisir votre modèle

Il existe quelques approches pour utiliser des modèles vocaux personnalisée :

  • Le modèle de base fournit une reconnaissance vocale précise prête à l’emploi pour une gamme de scénarios. Les modèles de base sont régulièrement mis à jour pour améliorer la précision et la qualité. Si vous utilisez des modèles de base, nous vous recommandons d’utiliser les derniers modèles de base par défaut. Si une fonctionnalité de personnalisation requise n’est disponible qu’avec un modèle plus ancien, vous pouvez choisir un modèle de base plus ancien.
  • Un modèle personnalisé augmente le modèle de base pour inclure le vocabulaire spécifique au domaine partagé dans toutes les zones du domaine personnalisé.
  • Plusieurs modèles personnalisés peuvent être utilisés lorsque le domaine personnalisé a plusieurs zones, chacune avec un vocabulaire spécifique.

Un moyen recommandé de voir si le modèle de base suffit pour analyser la transcription produite à partir du modèle de base et à la comparer avec une transcription générée par un humain pour le même audio. Vous pouvez comparer les transcriptions et obtenir un score de taux d’erreur de mot (WER). Si le score WER est élevé, il est recommandé d’entraîner un modèle personnalisé pour qu’il puisse reconnaître les mots identifiés incorrectement.

Plusieurs modèles sont recommandés si le vocabulaire varie entre les zones du domaine. Par exemple, les commentateurs olympiques présentent différents événements, chacun associé à son propre champ lexical. Étant donné que chaque vocabulaire d’événement olympique diffère considérablement des autres, la création d’un modèle personnalisé spécifique à un événement augmente la précision en limitant les données d’énoncé par rapport à cet événement particulier. Par conséquent, le modèle n’a pas besoin de parcourir des données non liées pour faire une correspondance. Dans tous les cas, la formation nécessite toujours une diversité décente de données de formation. Incluez l’audio de divers commentateurs avec différents accents, genres, âges, etc.

Stabilité et cycle de vie des modèles

Un modèle de base ou personnalisé déployé sur un point de terminaison à l’aide d’un système vocal personnalisé est fixe jusqu’à ce que vous décidiez de le mettre à jour. La précision et la qualité de la reconnaissance vocale restent cohérentes, même quand un nouveau modèle de base est publié. Cela vous permet de verrouiller le comportement d’un modèle spécifique jusqu’à ce que vous décidiez d’utiliser un modèle plus récent.

Que vous entraîniez votre propre modèle ou utilisiez un instantané d’un modèle de base, vous pouvez utiliser le modèle pendant une durée limitée. Pour plus d’informations, consultez Cycle de vie des modèles et des points de terminaison.

Étapes suivantes