Transcriptions - Transcribe
Transcrit le flux audio fourni.
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
Paramètres URI
Nom | Dans | Obligatoire | Type | Description |
---|---|---|---|---|
audio
|
formData | True |
file binary |
Audio sous la forme d’un flux d’octets. |
definition
|
formData | True |
string |
Métadonnées pour une demande de transcription rapide. Ce champ contient un objet sérialisé JSON de type |
endpoint
|
path | True |
string |
Points de terminaison Cognitive Services pris en charge (protocole et nom d’hôte, par exemple : https://westus.api.cognitive.microsoft.com). |
api-version
|
query | True |
string |
Version de l’API demandée. |
Réponses
Nom | Type | Description |
---|---|---|
200 OK |
D’ACCORD |
Sécurité
Ocp-Apim-Subscription-Key
Fournissez ici votre clé de compte Cognitive Services.
Type:
apiKey
Dans:
header
Authorization
Fournissez un jeton d’accès à partir du JWT retourné par le STS de cette région. Veillez à ajouter l’étendue de gestion au jeton en ajoutant la chaîne de requête suivante à l’URL STS : ?scope=speechservicesmanagement
Type:
apiKey
Dans:
header
Exemples
Transcribe an audio file
Exemple de requête
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
Exemple de réponse
{
"duration": 2000,
"combinedPhrases": [
{
"text": "Weather"
}
],
"phrases": [
{
"offset": 40,
"duration": 240,
"text": "Weather",
"words": [
{
"text": "Weather",
"offset": 40,
"duration": 240
}
],
"locale": "en-US",
"confidence": 0.7881154
}
]
}
Définitions
Nom | Description |
---|---|
Combined |
|
Phrase |
Expression transcrite. |
Transcribe |
Résultat de l’opération de transcription. |
Word |
Mot horodaté dans le formulaire d’affichage. |
CombinedPhrases
Nom | Type | Description |
---|---|---|
channel |
integer |
Index de canal basé sur 0. Présente uniquement si la séparation des canaux est activée. |
text |
string |
Texte transcrit complet pour le canal. |
Phrase
Expression transcrite.
Nom | Type | Description |
---|---|---|
channel |
integer |
Index de canal basé sur 0. Présente uniquement si la séparation des canaux est activée. |
confidence |
number |
Valeur de confiance de l’expression. |
duration |
integer |
Durée de l’expression en millisecondes. |
locale |
string |
Paramètres régionaux de l’expression. |
offset |
integer |
Décalage de début de l’expression en millisecondes. |
speaker |
integer |
Numéro de l’orateur. Présente uniquement si la diarisation de l’orateur est activée. |
text |
string |
Texte transcrit de l’expression. |
words |
Word[] |
Mots qui composent l’expression. Présente uniquement si les horodatages au niveau du mot sont activés. |
TranscribeResult
Résultat de l’opération de transcription.
Nom | Type | Description |
---|---|---|
combinedPhrases |
Résultats de transcription combinés pour chaque canal. |
|
duration |
integer |
Durée de l’audio en millisecondes. |
phrases |
Phrase[] |
Les résultats de la transcription sont segmentés en expressions. |
Word
Mot horodaté dans le formulaire d’affichage.
Nom | Type | Description |
---|---|---|
duration |
integer |
Durée du mot en millisecondes. |
offset |
integer |
Décalage de début du mot en millisecondes. |
text |
string |
Mot reconnu, y compris la ponctuation. |