Transcriptions - Transcribe
Transkribiert den bereitgestellten Audiodatenstrom.
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
audio
|
formData | True |
file binary |
Die Audiodaten als Bytestrom. |
definition
|
formData | True |
string |
Metadaten für eine schnelle Transkriptionsanforderung. Dieses Feld enthält ein JSON-serialisiertes Objekt vom Typ |
endpoint
|
path | True |
string |
Unterstützte Cognitive Services-Endpunkte (Protokoll und Hostname, z. B. https://westus.api.cognitive.microsoft.com). |
api-version
|
query | True |
string |
Die angeforderte API-Version. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK |
OKAY |
Sicherheit
Ocp-Apim-Subscription-Key
Stellen Sie hier Ihren kognitiven Leistungskontoschlüssel bereit.
Typ:
apiKey
In:
header
Authorization
Stellen Sie ein Zugriffstoken von JWT bereit, das vom STS dieser Region zurückgegeben wird. Stellen Sie sicher, dass Sie dem Token den Verwaltungsbereich hinzufügen, indem Sie der STS-URL die folgende Abfragezeichenfolge hinzufügen: ?scope=speechservicesmanagement
Typ:
apiKey
In:
header
Beispiele
Transcribe an audio file
Beispielanforderung
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
Beispiel für eine Antwort
{
"duration": 2000,
"combinedPhrases": [
{
"text": "Weather"
}
],
"phrases": [
{
"offset": 40,
"duration": 240,
"text": "Weather",
"words": [
{
"text": "Weather",
"offset": 40,
"duration": 240
}
],
"locale": "en-US",
"confidence": 0.7881154
}
]
}
Definitionen
Name | Beschreibung |
---|---|
Combined |
|
Phrase |
Ein transkribierter Ausdruck. |
Transcribe |
Das Ergebnis des Transcribe-Vorgangs. |
Word |
Zeitstempelwort im Anzeigeformular. |
CombinedPhrases
Name | Typ | Beschreibung |
---|---|---|
channel |
integer |
Der 0-basierte Kanalindex. Nur vorhanden, wenn die Kanaltrennung aktiviert ist. |
text |
string |
Der vollständige transkribierte Text für den Kanal. |
Phrase
Ein transkribierter Ausdruck.
Name | Typ | Beschreibung |
---|---|---|
channel |
integer |
Der 0-basierte Kanalindex. Nur vorhanden, wenn die Kanaltrennung aktiviert ist. |
confidence |
number |
Der Konfidenzwert für den Ausdruck. |
duration |
integer |
Die Dauer des Ausdrucks in Millisekunden. |
locale |
string |
Das Gebietsschema des Ausdrucks. |
offset |
integer |
Der Anfangsoffset des Ausdrucks in Millisekunden. |
speaker |
integer |
Die Sprechernummer. Nur vorhanden, wenn die Diarisierung des Lautsprechers aktiviert ist. |
text |
string |
Der transkribierte Text des Ausdrucks. |
words |
Word[] |
Die Wörter, aus denen der Ausdruck besteht. Nur vorhanden, wenn Zeitstempel auf Wortebene aktiviert sind. |
TranscribeResult
Das Ergebnis des Transcribe-Vorgangs.
Name | Typ | Beschreibung |
---|---|---|
combinedPhrases |
Die kombinierten Transkriptionsergebnisse für jeden Kanal. |
|
duration |
integer |
Die Dauer des Audiosignals in Millisekunden. |
phrases |
Phrase[] |
Die Transkription führt zu Ausdrücken segmentiert. |
Word
Zeitstempelwort im Anzeigeformular.
Name | Typ | Beschreibung |
---|---|---|
duration |
integer |
Die Dauer des Worts in Millisekunden. |
offset |
integer |
Der Anfangsoffset des Worts in Millisekunden. |
text |
string |
Das erkannte Wort, einschließlich Interpunktion. |