Transcriptions - Transcribe
Transkriberar den angivna ljudströmmen.
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
URI-parametrar
Name | I | Obligatorisk | Typ | Description |
---|---|---|---|---|
audio
|
formData | True |
file binary |
Ljudet som en ström av byte. |
definition
|
formData | True |
string |
Metadata för en begäran om snabb transkription. Det här fältet innehåller ett JSON-serialiserat objekt av typen |
endpoint
|
path | True |
string |
Cognitive Services-slutpunkter som stöds (protokoll och värdnamn, till exempel: https://westus.api.cognitive.microsoft.com). |
api-version
|
query | True |
string |
Den begärda API-versionen. |
Svar
Name | Typ | Description |
---|---|---|
200 OK |
OKEJ |
Säkerhet
Ocp-Apim-Subscription-Key
Ange din cognitive services-kontonyckel här.
Typ:
apiKey
I:
header
Authorization
Ange en åtkomsttoken från JWT som returneras av STS i den här regionen. Se till att lägga till hanteringsomfånget i token genom att lägga till följande frågesträng i STS-URL:en: ?scope=speechservicesmanagement
Typ:
apiKey
I:
header
Exempel
Transcribe an audio file
Exempelbegäran
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
Exempelsvar
{
"duration": 2000,
"combinedPhrases": [
{
"text": "Weather"
}
],
"phrases": [
{
"offset": 40,
"duration": 240,
"text": "Weather",
"words": [
{
"text": "Weather",
"offset": 40,
"duration": 240
}
],
"locale": "en-US",
"confidence": 0.7881154
}
]
}
Definitioner
Name | Description |
---|---|
Combined |
|
Phrase |
En transkriberad fras. |
Transcribe |
Resultatet av transkriberingsåtgärden. |
Word |
Tidsstämplat ord i visningsformuläret. |
CombinedPhrases
Name | Typ | Description |
---|---|---|
channel |
integer |
Det 0-baserade kanalindexet. Visas endast om kanalseparation är aktiverat. |
text |
string |
Den fullständiga transkriberade texten för kanalen. |
Phrase
En transkriberad fras.
Name | Typ | Description |
---|---|---|
channel |
integer |
Det 0-baserade kanalindexet. Visas endast om kanalseparation är aktiverat. |
confidence |
number |
Konfidensvärdet för frasen. |
duration |
integer |
Varaktigheten för frasen i millisekunder. |
locale |
string |
Frasens nationella inställningar. |
offset |
integer |
Startförskjutningen av frasen i millisekunder. |
speaker |
integer |
Talarnumret. Presentera endast om talardiarisering är aktiverat. |
text |
string |
Den transkriberade texten i frasen. |
words |
Word[] |
Orden som utgör frasen. Presentera endast om tidsstämplar på ordnivå är aktiverade. |
TranscribeResult
Resultatet av transkriberingsåtgärden.
Name | Typ | Description |
---|---|---|
combinedPhrases |
De kombinerade transkriptionsresultaten för varje kanal. |
|
duration |
integer |
Ljudets varaktighet i millisekunder. |
phrases |
Phrase[] |
Transkriptionsresultaten segmenterades i fraser. |
Word
Tidsstämplat ord i visningsformuläret.
Name | Typ | Description |
---|---|---|
duration |
integer |
Ordets varaktighet i millisekunder. |
offset |
integer |
Startförskjutningen av ordet i millisekunder. |
text |
string |
Det identifierade ordet, inklusive skiljetecken. |