Freigeben über


Transcriptions - Transcribe

Transkribiert den bereitgestellten Audiodatenstrom.

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

URI-Parameter

Name In Erforderlich Typ Beschreibung
audio
formData True

file

binary

Die Audiodaten als Bytestrom.

definition
formData True

string

Metadaten für eine schnelle Transkriptionsanforderung. Dieses Feld enthält ein JSON-serialisiertes Objekt vom Typ TranscribeDefinition.

endpoint
path True

string

Unterstützte Cognitive Services-Endpunkte (Protokoll und Hostname, z. B. https://westus.api.cognitive.microsoft.com).

api-version
query True

string

Die angeforderte API-Version.

Antworten

Name Typ Beschreibung
200 OK

TranscribeResult

OKAY

Sicherheit

Ocp-Apim-Subscription-Key

Stellen Sie hier Ihren kognitiven Leistungskontoschlüssel bereit.

Typ: apiKey
In: header

Authorization

Stellen Sie ein Zugriffstoken von JWT bereit, das vom STS dieser Region zurückgegeben wird. Stellen Sie sicher, dass Sie dem Token den Verwaltungsbereich hinzufügen, indem Sie der STS-URL die folgende Abfragezeichenfolge hinzufügen: ?scope=speechservicesmanagement

Typ: apiKey
In: header

Beispiele

Transcribe an audio file

Beispielanforderung

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Beispiel für eine Antwort

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

Definitionen

Name Beschreibung
CombinedPhrases
Phrase

Ein transkribierter Ausdruck.

TranscribeResult

Das Ergebnis des Transcribe-Vorgangs.

Word

Zeitstempelwort im Anzeigeformular.

CombinedPhrases

Name Typ Beschreibung
channel

integer

Der 0-basierte Kanalindex. Nur vorhanden, wenn die Kanaltrennung aktiviert ist.

text

string

Der vollständige transkribierte Text für den Kanal.

Phrase

Ein transkribierter Ausdruck.

Name Typ Beschreibung
channel

integer

Der 0-basierte Kanalindex. Nur vorhanden, wenn die Kanaltrennung aktiviert ist.

confidence

number

Der Konfidenzwert für den Ausdruck.

duration

integer

Die Dauer des Ausdrucks in Millisekunden.

locale

string

Das Gebietsschema des Ausdrucks.

offset

integer

Der Anfangsoffset des Ausdrucks in Millisekunden.

speaker

integer

Die Sprechernummer. Nur vorhanden, wenn die Diarisierung des Lautsprechers aktiviert ist.

text

string

Der transkribierte Text des Ausdrucks.

words

Word[]

Die Wörter, aus denen der Ausdruck besteht. Nur vorhanden, wenn Zeitstempel auf Wortebene aktiviert sind.

TranscribeResult

Das Ergebnis des Transcribe-Vorgangs.

Name Typ Beschreibung
combinedPhrases

CombinedPhrases[]

Die kombinierten Transkriptionsergebnisse für jeden Kanal.

duration

integer

Die Dauer des Audiosignals in Millisekunden.

phrases

Phrase[]

Die Transkription führt zu Ausdrücken segmentiert.

Word

Zeitstempelwort im Anzeigeformular.

Name Typ Beschreibung
duration

integer

Die Dauer des Worts in Millisekunden.

offset

integer

Der Anfangsoffset des Worts in Millisekunden.

text

string

Das erkannte Wort, einschließlich Interpunktion.