Dela via


Transcriptions - Transcribe

Transkriberar den angivna ljudströmmen.

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

URI-parametrar

Name I Obligatorisk Typ Description
audio
formData True

file

binary

Ljudet som en ström av byte.

definition
formData True

string

Metadata för en begäran om snabb transkription. Det här fältet innehåller ett JSON-serialiserat objekt av typen TranscribeDefinition.

endpoint
path True

string

Cognitive Services-slutpunkter som stöds (protokoll och värdnamn, till exempel: https://westus.api.cognitive.microsoft.com).

api-version
query True

string

Den begärda API-versionen.

Svar

Name Typ Description
200 OK

TranscribeResult

OKEJ

Säkerhet

Ocp-Apim-Subscription-Key

Ange din cognitive services-kontonyckel här.

Typ: apiKey
I: header

Authorization

Ange en åtkomsttoken från JWT som returneras av STS i den här regionen. Se till att lägga till hanteringsomfånget i token genom att lägga till följande frågesträng i STS-URL:en: ?scope=speechservicesmanagement

Typ: apiKey
I: header

Exempel

Transcribe an audio file

Exempelbegäran

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Exempelsvar

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

Definitioner

Name Description
CombinedPhrases
Phrase

En transkriberad fras.

TranscribeResult

Resultatet av transkriberingsåtgärden.

Word

Tidsstämplat ord i visningsformuläret.

CombinedPhrases

Name Typ Description
channel

integer

Det 0-baserade kanalindexet. Visas endast om kanalseparation är aktiverat.

text

string

Den fullständiga transkriberade texten för kanalen.

Phrase

En transkriberad fras.

Name Typ Description
channel

integer

Det 0-baserade kanalindexet. Visas endast om kanalseparation är aktiverat.

confidence

number

Konfidensvärdet för frasen.

duration

integer

Varaktigheten för frasen i millisekunder.

locale

string

Frasens nationella inställningar.

offset

integer

Startförskjutningen av frasen i millisekunder.

speaker

integer

Talarnumret. Presentera endast om talardiarisering är aktiverat.

text

string

Den transkriberade texten i frasen.

words

Word[]

Orden som utgör frasen. Presentera endast om tidsstämplar på ordnivå är aktiverade.

TranscribeResult

Resultatet av transkriberingsåtgärden.

Name Typ Description
combinedPhrases

CombinedPhrases[]

De kombinerade transkriptionsresultaten för varje kanal.

duration

integer

Ljudets varaktighet i millisekunder.

phrases

Phrase[]

Transkriptionsresultaten segmenterades i fraser.

Word

Tidsstämplat ord i visningsformuläret.

Name Typ Description
duration

integer

Ordets varaktighet i millisekunder.

offset

integer

Startförskjutningen av ordet i millisekunder.

text

string

Det identifierade ordet, inklusive skiljetecken.