Partager via


API REST de reconnaissance vocale

L’API REST de reconnaissance vocale est utilisée pour la transcription par lots et la reconnaissance vocale personnalisée.

Important

L’API REST de reconnaissance vocale v3.2 est la dernière version en disponibilité générale. Les versions préliminaires 3.2-preview.1 et 3.2-preview.2* seront supprimées en septembre 2024. L’API REST de reconnaissance vocale v3.1 sera supprimée à une date qui sera annoncée ultérieurement. Pour plus d’informations sur la mise à niveau, consultez le guide de migration de l’API REST Reconnaissance vocale v3.1 vers v3.2 . L’API REST de reconnaissance vocale v3.0 sera mise hors service le 1er avril 2026. Pour plus d’informations sur la mise à niveau, consultez les guides de migration de l’API REST Speech to Text v3.0 vers v3.1 et v3.1 vers v3.2.

Utilisez l’API REST de reconnaissance vocale pour ce qui suit :

  • Transcription rapide : transcrire des fichiers audio avec des résultats retournés de façon synchrone et beaucoup plus rapide que l’audio en temps réel. Utilisez l’API de transcription rapide (/speechtotext/transcriptions :transscribe) dans les scénarios où vous avez besoin de la transcription d’un enregistrement audio le plus rapidement possible avec une latence prévisible, comme la transcription rapide audio ou vidéo ou la traduction vidéo.
  • Reconnaissance vocale personnalisée : chargez vos propres données, testez et entraînez un modèle personnalisé, comparez la précision entre les modèles et déployez un modèle sur un point de terminaison personnalisé. Copier des modèles vers d’autres abonnements si vous voulez que les collègues aient accès à un modèle que vous avez créé, ou si vous voulez déployer un modèle dans plusieurs régions.
  • Transcription par lots : transcrivez des fichiers audio par lots à partir de plusieurs URL ou d’un conteneur Azure.

L’API REST de reconnaissance vocale inclut notamment les fonctionnalités suivantes :

  • Obtenez les journaux pour chaque point de terminaison si les journaux d’activité sont demandés pour ce point de terminaison.
  • Demander le manifeste des modèles que vous créez pour configurer des conteneurs locaux.
  • Charger des données à partir de comptes de stockage Azure à l’aide d’un URI de signature d’accès partagé (SAS).
  • Apportez votre propre stockage. Utilisez vos propres comptes de stockage pour les journaux, les fichiers de transcription et d’autres données.
  • Certaines opérations prennent en charge les notifications webhook. Vous pouvez inscrire vos webhooks là où les notifications sont envoyées.

Transcription par lot

Les groupes d’opérations suivants s’appliquent à la transcription par lots.

Groupe d’opérations Description
Modèles Utilisez des modèles de base ou des modèles personnalisés pour transcrire des fichiers audio.

Vous pouvez utiliser des modèles avec la reconnaissance vocale personnalisée et la transcription par lots. Par exemple, vous pouvez utiliser un modèle entraîné à l’aide d’un jeu de données spécifique pour transcrire des fichiers audio. Consultez Effectuer l’apprentissage d’un modèle et d’un cycle de vie de modèle speech personnalisé pour obtenir des exemples d’apprentissage et de gestion de modèles vocaux personnalisés.
Transcriptions Utilisez des transcriptions pour transcrire une grande quantité d’audio dans le stockage.

Lorsque vous utilisez la transcription par lot, vous envoyez plusieurs fichiers par requête ou pointez vers un conteneur Stockage Blob Azure avec les fichiers audio à transcrire. Pour voir des exemples de création de transcriptions à partir de plusieurs fichiers audio, consultez Créer une transcription.
Webhooks Utilisez des hooks web pour recevoir des notifications sur les événements de création, de traitement, d’achèvement et de suppression.

Vous pouvez utiliser des hooks web avec la reconnaissance vocale personnalisée et la transcription par lots. Les hooks web s’appliquent aux jeux de données, points de terminaison, évaluations, modèles et transcriptions.

Reconnaissance vocale personnalisée

Les groupes d’opérations suivants s’appliquent à la reconnaissance vocale personnalisée.

Groupe d’opérations Description
Jeux de données Utilisez des jeux de données pour entraîner et tester des modèles vocaux personnalisés.

Par exemple, vous pouvez comparer les performances d’une reconnaissance vocale personnalisée entraînée avec un jeu de données spécifique aux performances d’un modèle de base ou d’un modèle de reconnaissance vocale personnalisée entraînée avec un autre jeu de données. Pour voir des exemples de chargement de jeux de données, consultez Charger des jeux de données d’entraînement et de test.
Points de terminaison Déployez des modèles speech personnalisés sur des points de terminaison.

Vous devez déployer un point de terminaison personnalisé pour utiliser un modèle de reconnaissance vocale personnalisée. Pour voir des exemples de gestion des points de terminaison de déploiement, consultez Déployer un modèle.
Évaluations Utilisez des évaluations pour comparer les performances des différents modèles.

Par exemple, vous pouvez comparer les performances d’un modèle speech personnalisé entraîné avec un jeu de données spécifique aux performances d’un modèle de base ou d’un modèle personnalisé entraîné avec un autre jeu de données. Consultez la qualité de la reconnaissance des tests et la précision des tests pour obtenir des exemples de test et d’évaluation des modèles vocaux personnalisés.
Modèles Utilisez des modèles de base ou des modèles personnalisés pour transcrire des fichiers audio.

Vous pouvez utiliser des modèles avec la reconnaissance vocale personnalisée et la transcription par lots. Par exemple, vous pouvez utiliser un modèle entraîné à l’aide d’un jeu de données spécifique pour transcrire des fichiers audio. Consultez Effectuer l’apprentissage d’un modèle et d’un cycle de vie de modèle speech personnalisé pour obtenir des exemples d’apprentissage et de gestion de modèles vocaux personnalisés.
Projets Utilisez des projets pour gérer des modèles speech personnalisés, entraîner et tester des jeux de données et des points de terminaison de déploiement.

Les projets speech personnalisés contiennent des modèles, des jeux de données d’entraînement et de test et des points de terminaison de déploiement. Chaque projet est spécifique à un paramètre régional. Par exemple, vous pourriez créer un projet utilisant l’anglais aux États-Unis. Pour voir des exemples de création de projets, consultez Créer un projet.
Webhooks Utilisez des hooks web pour recevoir des notifications sur les événements de création, de traitement, d’achèvement et de suppression.

Vous pouvez utiliser des hooks web avec la reconnaissance vocale personnalisée et la transcription par lots. Les hooks web s’appliquent aux jeux de données, points de terminaison, évaluations, modèles et transcriptions.

Service de contrôle d’intégrité

État des services fournit des informations sur l’intégrité globale du service et des sous-composants. Pour plus d’informations, consultez Service Health .

Étapes suivantes