Partager via


Transcriptions - Transcribe

Transcrit le flux audio fourni.

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Paramètres URI

Nom Dans Obligatoire Type Description
audio
formData True

file

binary

Audio sous la forme d’un flux d’octets.

definition
formData True

string

Métadonnées pour une demande de transcription rapide. Ce champ contient un objet sérialisé JSON de type TranscribeDefinition.

endpoint
path True

string

Points de terminaison Cognitive Services pris en charge (protocole et nom d’hôte, par exemple : https://westus.api.cognitive.microsoft.com).

api-version
query True

string

Version de l’API demandée.

Réponses

Nom Type Description
200 OK

TranscribeResult

D’ACCORD

Sécurité

Ocp-Apim-Subscription-Key

Fournissez ici votre clé de compte Cognitive Services.

Type: apiKey
Dans: header

Authorization

Fournissez un jeton d’accès à partir du JWT retourné par le STS de cette région. Veillez à ajouter l’étendue de gestion au jeton en ajoutant la chaîne de requête suivante à l’URL STS : ?scope=speechservicesmanagement

Type: apiKey
Dans: header

Exemples

Transcribe an audio file

Exemple de requête

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Exemple de réponse

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

Définitions

Nom Description
CombinedPhrases
Phrase

Expression transcrite.

TranscribeResult

Résultat de l’opération de transcription.

Word

Mot horodaté dans le formulaire d’affichage.

CombinedPhrases

Nom Type Description
channel

integer

Index de canal basé sur 0. Présente uniquement si la séparation des canaux est activée.

text

string

Texte transcrit complet pour le canal.

Phrase

Expression transcrite.

Nom Type Description
channel

integer

Index de canal basé sur 0. Présente uniquement si la séparation des canaux est activée.

confidence

number

Valeur de confiance de l’expression.

duration

integer

Durée de l’expression en millisecondes.

locale

string

Paramètres régionaux de l’expression.

offset

integer

Décalage de début de l’expression en millisecondes.

speaker

integer

Numéro de l’orateur. Présente uniquement si la diarisation de l’orateur est activée.

text

string

Texte transcrit de l’expression.

words

Word[]

Mots qui composent l’expression. Présente uniquement si les horodatages au niveau du mot sont activés.

TranscribeResult

Résultat de l’opération de transcription.

Nom Type Description
combinedPhrases

CombinedPhrases[]

Résultats de transcription combinés pour chaque canal.

duration

integer

Durée de l’audio en millisecondes.

phrases

Phrase[]

Les résultats de la transcription sont segmentés en expressions.

Word

Mot horodaté dans le formulaire d’affichage.

Nom Type Description
duration

integer

Durée du mot en millisecondes.

offset

integer

Décalage de début du mot en millisecondes.

text

string

Mot reconnu, y compris la ponctuation.