Aracılığıyla paylaş


Transcriptions - Transcribe

Sağlanan ses akışının dökümünü alır.

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

URI Parametreleri

Name İçinde Gerekli Tür Description
audio
formData True

file

binary

Bayt akışı olarak ses.

definition
formData True

string

Hızlı transkripsiyon isteğinin meta verileri. Bu alan, TranscribeDefinitiontüründe bir JSON serileştirilmiş nesnesi içerir.

endpoint
path True

string

Desteklenen Bilişsel Hizmetler uç noktaları (protokol ve konak adı, örneğin: https://westus.api.cognitive.microsoft.com).

api-version
query True

string

İstenen API sürümü.

Yanıtlar

Name Tür Description
200 OK

TranscribeResult

TAMAM

Güvenlik

Ocp-Apim-Subscription-Key

Bilişsel hizmetler hesap anahtarınızı burada belirtin.

Tür: apiKey
İçinde: header

Authorization

Bu bölgenin STS'leri tarafından döndürülen JWT'den bir erişim belirteci sağlayın. STS URL'sine aşağıdaki sorgu dizesini ekleyerek yönetim kapsamını belirteci eklediğinizden emin olun: ?scope=speechservicesmanagement

Tür: apiKey
İçinde: header

Örnekler

Transcribe an audio file

Örnek isteği

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Örnek yanıt

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

Tanımlar

Name Description
CombinedPhrases
Phrase

Dökümü alınmış bir tümcecik.

TranscribeResult

Döküm işleminin sonucu.

Word

Görüntüleme formunda zaman damgalı sözcük.

CombinedPhrases

Name Tür Description
channel

integer

0 tabanlı kanal dizini. Yalnızca kanal ayrımı etkinleştirildiğinde sunulur.

text

string

Kanal için tam dökümü alınmış metin.

Phrase

Dökümü alınmış bir tümcecik.

Name Tür Description
channel

integer

0 tabanlı kanal dizini. Yalnızca kanal ayrımı etkinleştirildiğinde sunulur.

confidence

number

tümceciği için güvenilirlik değeri.

duration

integer

İfadenin milisaniye cinsinden süresi.

locale

string

tümceciği yerel ayarı.

offset

integer

İfadenin milisaniye cinsinden başlangıç uzaklığı.

speaker

integer

Hoparlör numarası. Yalnızca konuşmacıyı ayırma etkinleştirildiğinde sunulur.

text

string

Tümceciğin dökümü alınmış metni.

words

Word[]

Tümceciği oluşturan sözcükler. Yalnızca sözcük düzeyi zaman damgaları etkinleştirildiğinde sunulur.

TranscribeResult

Döküm işleminin sonucu.

Name Tür Description
combinedPhrases

CombinedPhrases[]

Her kanal için birleştirilmiş transkripsiyon sonuçları.

duration

integer

Sesin milisaniye cinsinden süresi.

phrases

Phrase[]

Transkripsiyon sonuçları tümceciklere ayrılmıştır.

Word

Görüntüleme formunda zaman damgalı sözcük.

Name Tür Description
duration

integer

Sözcüğün milisaniye cinsinden süresi.

offset

integer

Sözcüğün milisaniye cinsinden başlangıç uzaklığı.

text

string

Noktalama işaretleri de dahil olmak üzere tanınan sözcük.