Migrer du code de la version v3.0 vers la version 3.1 de l’API REST
L’API REST de reconnaissance vocale est utilisée pour la Transcription par lots et la reconnaissance vocale personnalisée. Les modifications de la version 3.0 à la version 3.1 sont décrites dans les sections ci-dessous.
Important
L’API REST de reconnaissance vocale v3.2 est la dernière version en disponibilité générale. Les versions préliminaires 3.2-preview.1 et 3.2-preview.2* seront supprimées en septembre 2024. L’API REST de reconnaissance vocale v3.1 sera supprimée à une date qui sera annoncée ultérieurement. L’API REST de reconnaissance vocale v3.0 sera mise hors service le 1er avril 2026.
Chemin de base
Vous devez mettre à jour le chemin de base dans votre code en le modifiant de /speechtotext/v3.0
en /speechtotext/v3.1
. Par exemple, pour obtenir des modèles de base dans la région eastus
, utilisez https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
plutôt que https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
.
Notez ces autres changements :
- L’opération
/models/{id}/copyto
(inclut « / ») dans la version 3.0 est remplacée par l’opération/models/{id}:copyto
(inclut « : ») dans la version 3.1. - L’opération
/webhooks/{id}/ping
(inclut « / ») dans la version 3.0 est remplacée par l’opération/webhooks/{id}:ping
(inclut « : ») dans la version 3.1. - L’opération
/webhooks/{id}/test
(inclut « / ») dans la version 3.0 est remplacée par l’opération/webhooks/{id}:test
(inclut « : ») dans la version 3.1.
Pour plus d’informations, consultez ID d’opération plus loin dans ce guide.
Transcription Batch
Notes
N’utilisez pas l’API REST de reconnaissance vocale v3.0 pour récupérer une transcription créée via l’API REST de reconnaissance vocale v3.1. Vous verriez un message d’erreur tel que le suivant : « La version de l’API ne peut pas être utilisée pour accéder à cette transcription. Utilisez l’API version v3.1 ou ultérieure. »
Dans l’opération Transcriptions_Create, les trois propriétés suivantes sont ajoutées :
- La propriété
displayFormWordLevelTimestampsEnabled
peut être utilisée pour activer la création de rapports d’horodatages au niveau mot sur le formulaire d’affichage des résultats de la transcription. Les résultats sont retournés dans la propriétédisplayWords
du fichier de transcription. - La propriété
diarization
peut être utilisée pour spécifier des indicateurs pour les nombres minimal et maximal d’étiquettes d’orateur à générer lors de l’exécution de la diarisation facultative (séparation de l’orateur). Avec cette fonctionnalité, le service est désormais en mesure de générer des étiquettes d’orateur pour plus de deux haut-parleurs. Pour utiliser cette propriété, vous devez également définir la propriétédiarizationEnabled
surtrue
. Avec l’API v3.1, nous avons augmenté le nombre d’orateurs pouvant être identifiés par la diarisation à partir des deux orateurs pris en charge par l’API v3.0. Il est recommandé de ne pas dépasser 30 orateurs pour de meilleures performances. - La propriété
languageIdentification
peut être utilisée afin de spécifier des paramètres pour l’identification de la langue sur l’entrée avant la transcription. Jusqu’à 10 paramètres régionaux candidats sont pris en charge pour l’identification linguistique. La transcription retournée inclut une nouvelle propriétélocale
pour la langue reconnue ou les paramètres régionaux que vous avez fournis.
La propriété filter
est ajoutée aux opérations Transcriptions_List, Transcriptions_ListFiles et Projects_ListTranscriptions. L’expression filter
peut être utilisée pour sélectionner un sous-ensemble des ressources disponibles. Vous pouvez filtrer sur displayName
, description
, createdDateTime
, lastActionDateTime
, status
et locale
. Par exemple : filter=createdDateTime gt 2022-02-01T11:00:00Z
Si vous utilisez un webhook pour recevoir des notifications sur l’état de la transcription, notez que les webhooks créés via l’API v3.0 ne peuvent pas recevoir de notifications pour les demandes de transcription v3.1. Vous devez créer un point de terminaison webhook via l’API v3.1 pour pouvoir recevoir des notifications pour les demandes de transcription v3.1.
Reconnaissance vocale personnalisée
Groupes de données
Les opérations suivantes sont ajoutées pour le chargement et la gestion de plusieurs blocs de données pour un jeu de données :
- Datasets_UploadBlock : charger un bloc de données pour le jeu de données. La taille maximale du bloc est de 8 Mo.
- Datasets_GetBlocks : obtenir la liste des blocs chargés pour ce jeu de données.
- Datasets_CommitBlocks : valider la liste de blocs pour terminer le chargement du jeu de données.
Pour prendre en charge l’adaptation du modèle avec des données de texte structuré en Markdown, l’opération Datasets_Create prend désormais en charge le type de données LanguageMarkdown. Pour plus d’informations, consultez Charger des jeux de données.
Modèles
Les opérations Models_ListBaseModels et Models_GetBaseModel retournent des informations sur le type d’adaptation pris en charge par chaque modèle de base.
"features": {
"supportsAdaptationsWith": [
"Acoustic",
"Language",
"LanguageMarkdown",
"Pronunciation"
]
}
L’opération Models_Create a une nouvelle propriété customModelWeightPercent
qui vous permet de spécifier la pondération utilisée lorsque le modèle de langage personnalisé (entraîné à partir de données de texte brut ou structuré) est combiné avec le modèle de langage de base. Les valeurs valides sont des entiers compris entre 1 et 100. La valeur par défaut est 30 actuellement.
La propriété filter
est ajoutée aux opérations suivantes :
- Datasets_List
- Datasets_ListFiles
- Endpoints_List
- Evaluations_List
- Evaluations_ListFiles
- Models_ListBaseModels
- Models_ListCustomModels
- Projects_List
- Projects_ListDatasets
- Projects_ListEndpoints
- Projects_ListEvaluations
- Projects_ListModels
L’expression filter
peut être utilisée pour sélectionner un sous-ensemble des ressources disponibles. Vous pouvez filtrer sur displayName
, description
, createdDateTime
, lastActionDateTime
, status
, locale
et kind
. Par exemple : filter=locale eq 'en-US'
Ajout de l’opération Models_ListFiles pour obtenir les fichiers du modèle identifié par l’ID donné.
Ajout de l’opération Models_GetFile pour obtenir un fichier spécifique (identifié avec fileId) à partir d’un modèle (identifié avec ID). Cela vous permet de récupérer un fichier ModelReport qui fournit des informations sur les données traitées pendant l’entraînement.
ID d'opération
Vous devez mettre à jour le chemin de base dans votre code en le modifiant de /speechtotext/v3.0
en /speechtotext/v3.1
. Par exemple, pour obtenir des modèles de base dans la région eastus
, utilisez https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
plutôt que https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
.
Le nom de chaque operationId
dans la version 3.1 a pour préfixe le nom de l’objet. Par exemple, le operationId
pour « Créer un modèle » a changé de CreateModel dans la version 3.0 à Models_Create dans la version 3.1.
L’opération /models/{id}/copyto
(inclut « / ») dans la version 3.0 est remplacée par l’opération /models/{id}:copyto
(inclut « : ») dans la version 3.1.
L’opération /webhooks/{id}/ping
(inclut « / ») dans la version 3.0 est remplacée par l’opération /webhooks/{id}:ping
(inclut « : ») dans la version 3.1.
L’opération /webhooks/{id}/test
(inclut « / ») dans la version 3.0 est remplacée par l’opération /webhooks/{id}:test
(inclut « : ») dans la version 3.1.