Memigrasikan kode dari v3.0 ke v3.1 dari REST API

Artikel
04/15/2024

REST API Ucapan ke teks digunakan untuk transkripsi Batch dan ucapan kustom. Perubahan dari versi 3.0 ke 3.1 dijelaskan di bagian di bawah ini.

Penting

REST API ucapan ke teks v3.2 tersedia dalam pratinjau. REST API ucapan ke teks v3.1 umumnya tersedia. REST API ucapan ke teks v3.0 akan dihentikan pada 1 April 2026. Untuk informasi selengkapnya, lihat panduan migrasi Ucapan ke teks REST API v3.0 ke v3.1 dan v3.1 ke v3.2 .

Jalur dasar

Anda harus memperbarui jalur dasar dalam kode Anda dari /speechtotext/v3.0 ke /speechtotext/v3.1. Misalnya, untuk mendapatkan model dasar di wilayah tersebut eastus , gunakan https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base alih-alih https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

Perhatikan perubahan lain ini:

/models/{id}/copyto Operasi (termasuk '/') dalam versi 3.0 digantikan oleh /models/{id}:copyto operasi (termasuk ':') dalam versi 3.1.
/webhooks/{id}/ping Operasi (termasuk '/') dalam versi 3.0 digantikan oleh /webhooks/{id}:ping operasi (termasuk ':') dalam versi 3.1.
/webhooks/{id}/test Operasi (termasuk '/') dalam versi 3.0 digantikan oleh /webhooks/{id}:test operasi (termasuk ':') dalam versi 3.1.

Untuk informasi selengkapnya, lihat ID operasi nanti di panduan ini.

Transkripsi batch

Catatan

Jangan gunakan Ucapan ke teks REST API v3.0 untuk mengambil transkripsi yang dibuat melalui Ucapan ke teks REST API v3.1. Anda akan melihat pesan kesalahan seperti berikut: "Versi API tidak dapat digunakan untuk mengakses transkripsi ini. Silakan gunakan API versi v3.1 atau yang lebih tinggi."

Dalam operasi Transcriptions_Create, tiga properti berikut ditambahkan:

Properti displayFormWordLevelTimestampsEnabled dapat digunakan untuk mengaktifkan pelaporan tanda waktu tingkat kata pada formulir tampilan hasil transkripsi. Hasilnya dikembalikan dalam displayWords properti file transkripsi.
diarization Properti dapat digunakan untuk menentukan petunjuk jumlah label pembicara minimum dan maksimum yang dihasilkan saat melakukan diarisasi opsional (pemisahan pembicara). Dengan fitur ini, layanan ini sekarang dapat menghasilkan label pembicara untuk lebih dari dua pembicara. Untuk menggunakan properti ini, Anda juga harus mengatur properti ke diarizationEnabledtrue. Dengan API v3.1, kami telah meningkatkan jumlah speaker yang dapat diidentifikasi melalui diarisasi dari dua speaker yang didukung oleh API v3.0. Disarankan untuk menjaga jumlah pembicara di bawah 30 untuk performa yang lebih baik.
Properti languageIdentification dapat digunakan menentukan pengaturan untuk identifikasi bahasa pada input sebelum transkripsi. Hingga 10 lokal kandidat didukung untuk identifikasi bahasa. Transkripsi yang dikembalikan mencakup properti baru locale untuk bahasa atau lokal yang dikenali yang Anda berikan.

Properti filter ditambahkan ke operasi Transcriptions_List, Transcriptions_ListFiles, dan Projects_ListTranscriptions . Ekspresi filter dapat digunakan untuk memilih subset sumber daya yang tersedia. Anda dapat memfilter menurut displayName, , descriptioncreatedDateTime, lastActionDateTime, status, dan locale. Misalnya: filter=createdDateTime gt 2022-02-01T11:00:00Z

Jika Anda menggunakan webhook untuk menerima pemberitahuan tentang status transkripsi, perhatikan bahwa webhook yang dibuat melalui API V3.0 tidak dapat menerima pemberitahuan untuk permintaan transkripsi V3.1. Anda perlu membuat titik akhir webhook baru melalui API V3.1 untuk menerima pemberitahuan untuk permintaan transkripsi V3.1.

Ucapan kustom

Himpunan data

Operasi berikut ditambahkan untuk mengunggah dan mengelola beberapa blok data untuk himpunan data:

Datasets_UploadBlock - Unggah blok data untuk himpunan data. Ukuran maksimum blok adalah 8 MiB.
Datasets_GetBlocks - Dapatkan daftar blok yang diunggah untuk himpunan data ini.
Datasets_CommitBlocks - Terapkan daftar blokir untuk menyelesaikan pengunggahan himpunan data.

Untuk mendukung adaptasi model dengan teks terstruktur dalam data markdown , operasi Datasets_Create sekarang mendukung jenis data LanguageMarkdown . Untuk informasi selengkapnya, lihat mengunggah himpunan data.

Model

Operasi Models_ListBaseModels dan Models_GetBaseModel mengembalikan informasi tentang jenis adaptasi yang didukung oleh setiap model dasar.

"features": {
    "supportsAdaptationsWith": [
        "Acoustic",
        "Language",
        "LanguageMarkdown",
        "Pronunciation"
    ]
}

Operasi Models_Create memiliki properti baru customModelWeightPercent tempat Anda dapat menentukan bobot yang digunakan saat Model Bahasa Kustom (dilatih dari data teks biasa atau terstruktur) dikombinasikan dengan Model Bahasa Dasar. Nilai yang valid adalah bilangan bulat antara 1 dan 100. Nilai defaultnya saat ini adalah 30.

Properti filter ditambahkan ke operasi berikut:

Ekspresi filter dapat digunakan untuk memilih subset sumber daya yang tersedia. Anda dapat memfilter menurut displayName, , createdDateTimedescription, lastActionDateTime, status, locale, dan kind. Misalnya: filter=locale eq 'en-US'

Menambahkan operasi Models_ListFiles untuk mendapatkan file model yang diidentifikasi oleh ID yang diberikan.

Menambahkan operasi Models_GetFile untuk mendapatkan satu file tertentu (diidentifikasi dengan fileId) dari model (diidentifikasi dengan ID). Ini memungkinkan Anda mengambil file ModelReport yang menyediakan informasi tentang data yang diproses selama pelatihan.

ID Operasi

Nama masing-masing operationId dalam versi 3.1 diawali dengan nama objek. Misalnya, operationId untuk "Buat Model" diubah dari CreateModel di versi 3.0 menjadi Models_Create di versi 3.1.

/models/{id}/copyto Operasi (termasuk '/') dalam versi 3.0 digantikan oleh /models/{id}:copyto operasi (termasuk ':') dalam versi 3.1.

/webhooks/{id}/ping Operasi (termasuk '/') dalam versi 3.0 digantikan oleh /webhooks/{id}:ping operasi (termasuk ':') dalam versi 3.1.

/webhooks/{id}/test Operasi (termasuk '/') dalam versi 3.0 digantikan oleh /webhooks/{id}:test operasi (termasuk ':') dalam versi 3.1.