Melatih model ucapan kustom
Dalam artikel ini, Anda mempelajari cara melatih model kustom untuk meningkatkan akurasi pengenalan dari model dasar Microsoft. Akurasi pengenalan ucapan dan kualitas model ucapan kustom tetap konsisten, bahkan ketika model dasar baru dirilis.
Catatan
Anda membayar penggunaan model ucapan kustom dan hosting titik akhir. Anda juga akan dikenakan biaya untuk pelatihan model ucapan kustom jika model dasar dibuat pada 1 Oktober 2023 dan yang lebih baru. Anda tidak dikenakan biaya untuk pelatihan jika model dasar dibuat sebelum Oktober 2023. Untuk informasi selengkapnya, lihat Harga Azure AI Speech dan bagian Biaya untuk adaptasi dalam panduan migrasi ucapan ke teks 3.2.
Melatih model biasanya menjadi proses berulang. Anda terlebih dahulu memilih model dasar yang merupakan titik awal untuk model baru. Anda melatih model dengan himpunan data yang dapat menyertakan teks dan audio, lalu Anda mengujinya. Jika kualitas atau akurasi pengenalan tidak memenuhi kebutuhan Anda, Anda dapat membuat model baru dengan lebih banyak atau memodifikasi data pelatihan, lalu menguji lagi.
Anda dapat menggunakan model kustom untuk waktu yang terbatas setelah dilatih. Namun, kami sarankan agar secara berkala Anda membuat ulang dan mengadaptasikan model kustom Anda dengan model dasar terbaru guna memanfaatkan peningkatan akurasi dan kualitas. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.
Penting
Jika Anda akan melatih model kustom dengan data audio, pilih wilayah sumber daya Ucapan dengan perangkat keras khusus untuk melatih data audio. Setelah model dilatih, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan.
Di wilayah dengan perangkat keras khusus untuk pelatihan ucapan kustom, layanan Ucapan akan menggunakan hingga 20 jam data pelatihan audio Anda, dan dapat memproses sekitar 10 jam data per hari. Di wilayah lain, layanan Ucapan menggunakan hingga 8 jam data audio Anda, dan dapat memproses sekitar 1 jam data per hari. Lihat catatan kaki di tabel wilayah untuk informasi selengkapnya.
Buat model
Setelah Anda mengunggah himpunan data pelatihan, ikuti instruksi berikut untuk mulai melatih model Anda:
Masuk ke Speech Studio.
Pilih Ucapan> kustom Nama >proyek Anda Melatih model kustom.
Pilih Latih model barul.
Di halaman Pilih model garis besar, pilih model dasar, dan kemudian pilih Berikutnya. Jika Anda tidak yakin, pilih model terbaru dari bagian atas daftar. Nama model dasar sesuai dengan tanggal saat dirilis dalam format YYYYMMDD. Kemampuan penyesuaian model dasar tercantum dalam tanda kurung setelah nama model di Speech Studio.
Penting
Catat tanggal Kedaluwarsa untuk adaptasi. Ini merupakan tanggal terakhir Anda dapat menggunakan model dasar untuk pelatihan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.
Di halaman Pilih data, pilih satu atau lebih himpunan data yang ingin Anda gunakan untuk pelatihan. Jika tidak ada himpunan data yang tersedia, batalkan penyiapan, lalu buka menu Himpunan data ucapan untuk mengunggah himpunan data.
Masukkan nama dan deskripsi untuk model kustom Anda, dan kemudian pilih Berikutnya.
Sesuai pilihan, centang kotak Tambahkan pengujian di langkah berikutnya. Jika melewati langkah ini, Anda dapat menjalankan pengujian yang sama nanti. Untuk informasi selengkapnya, lihat Menguji kualitas pengenalan dan Menguji model secara kuantitatif.
Pilih Simpan dan tutup untuk mengawali build untuk model kustom Anda.
Kembali ke halaman Latih model kustom.
Penting
Perhatikan tanggal Kedaluwarsa. Ini merupakan tanggal terakhir Anda dapat menggunakan model kustom untuk pengenalan ucapan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.
Untuk membuat model dengan himpunan data untuk pelatihan, gunakan perintah spx csr model create
. Buat parameter permintaan sesuai dengan instruksi berikut:
- Atur parameter
project
ke ID proyek yang ada. Parameter ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola model di Speech Studio. Anda dapat menjalankan perintahspx csr project list
untuk mendapatkan proyek yang tersedia. - Atur parameter
dataset
yang diperlukan ke ID himpunan data yang ingin Anda gunakan untuk pelatihan. Untuk menentukan beberapa himpunan data, atur parameter (jamak)datasets
dan pisahkan ID dengan titik koma. - Atur parameter
language
yang diperlukan. Lokal himpunan data harus cocok dengan lokal proyek. Lokal tidak dapat diubah nanti. Parameterlanguage
Speech CLI sesuai dengan propertilocale
dalam permintaan dan respons JSON. - Atur parameter
name
yang diperlukan. Parameter ini adalah nama yang ditampilkan di Speech Studio. Parametername
Speech CLI sesuai dengan propertidisplayName
dalam permintaan dan respons JSON. - Secara opsional, Anda dapat mengatur properti
base
. Misalnya:--base 1aae1070-7972-47e9-a977-87e3b05c457d
. Jika Anda tidak menentukanbase
, model dasar default untuk lokal digunakan. Parameterbase
Speech CLI sesuai dengan propertibaseModel
dalam permintaan dan respons JSON.
Berikut adalah contoh perintah Speech CLI yang membuat model dengan himpunan data untuk pelatihan:
spx csr model create --api-version v3.1 --project YourProjectId --name "My Model" --description "My Model Description" --dataset YourDatasetId --language "en-US"
Catatan
Dalam contoh ini, base
tidak diatur, sehingga model dasar default untuk lokal digunakan. URI model dasar dikembalikan dalam respons.
Anda akan menerima isi respons dalam format berikut:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7",
"baseModel": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
},
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
}
],
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/manifest",
"copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7:copyto"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
},
"properties": {
"deprecationDates": {
"adaptationDateTime": "2023-01-15T00:00:00Z",
"transcriptionDateTime": "2024-07-15T00:00:00Z"
}
},
"lastActionDateTime": "2022-05-21T13:21:01Z",
"status": "NotStarted",
"createdDateTime": "2022-05-21T13:21:01Z",
"locale": "en-US",
"displayName": "My Model",
"description": "My Model Description"
}
Penting
Catat tanggal di adaptationDateTime
properti. Ini merupakan tanggal terakhir Anda dapat menggunakan model dasar untuk pelatihan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.
Catat tanggal di transcriptionDateTime
properti. Ini merupakan tanggal terakhir Anda dapat menggunakan model kustom untuk pengenalan ucapan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.
Properti self
tingkat atas dalam isi respons adalah URI model. Gunakan URI ini untuk mendapatkan detail tentang proyek, manifes, dan tanggal penghentian model. Anda juga menggunakan URI ini untuk memperbarui atau menghapus model.
Untuk bantuan Speech CLI dengan model, jalankan perintah berikut:
spx help csr model
Untuk membuat model dengan himpunan data untuk pelatihan, gunakan operasi Models_Create Rest API Ucapan ke teks. Buat isi permintaan sesuai dengan instruksi berikut:
- Atur properti
project
ke URI proyek yang ada. Properti ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola model di Speech Studio. Anda dapat membuat permintaan Projects_List untuk mendapatkan proyek yang tersedia. - Atur properti
datasets
yang diperlukan ke URI himpunan data yang ingin Anda gunakan untuk pelatihan. - Atur properti
locale
yang diperlukan. Lokal model harus cocok dengan lokal proyek dan model dasar. Lokal tidak dapat diubah nanti. - Atur properti
displayName
yang diperlukan. Properti ini adalah nama yang ditampilkan di Speech Studio. - Secara opsional, Anda dapat mengatur properti
baseModel
. Misalnya:"baseModel": {"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"}
. Jika Anda tidak menentukanbaseModel
, model dasar default untuk lokal digunakan.
Buat permintaan HTTP POST menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Ganti YourSubscriptionKey
dengan kunci sumber daya Ucapan Anda, ganti YourServiceRegion
dengan wilayah sumber daya Ucapan Anda, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
},
"displayName": "My Model",
"description": "My Model Description",
"baseModel": null,
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
}
],
"locale": "en-US"
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models"
Catatan
Dalam contoh ini, baseModel
tidak diatur, sehingga model dasar default untuk lokal digunakan. URI model dasar dikembalikan dalam respons.
Anda akan menerima isi respons dalam format berikut:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7",
"baseModel": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
},
"datasets": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
}
],
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/manifest",
"copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7:copyto"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
},
"properties": {
"deprecationDates": {
"adaptationDateTime": "2023-01-15T00:00:00Z",
"transcriptionDateTime": "2024-07-15T00:00:00Z"
}
},
"lastActionDateTime": "2022-05-21T13:21:01Z",
"status": "NotStarted",
"createdDateTime": "2022-05-21T13:21:01Z",
"locale": "en-US",
"displayName": "My Model",
"description": "My Model Description"
}
Penting
Catat tanggal di adaptationDateTime
properti. Ini merupakan tanggal terakhir Anda dapat menggunakan model dasar untuk pelatihan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.
Catat tanggal di transcriptionDateTime
properti. Ini merupakan tanggal terakhir Anda dapat menggunakan model kustom untuk pengenalan ucapan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.
Properti self
tingkat atas dalam isi respons adalah URI model. Gunakan URI ini untuk mendapatkan detail tentang proyek model, manifes, dan tanggal penghentian. Anda juga menggunakan URI ini untuk memperbarui atau menghapus model.
Menyalin model
Anda dapat menyalin model ke proyek lain yang menggunakan lokal yang sama. Misalnya, setelah model dilatih dengan data audio di wilayah dengan perangkat keras khusus untuk pelatihan, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan.
Ikuti instruksi berikut untuk menyalin model ke proyek di wilayah lain:
- Masuk ke Speech Studio.
- Pilih Ucapan> kustom Nama >proyek Anda Melatih model kustom.
- Pilih salin.
- Pada halaman Salin model ucapan, pilih wilayah target tempat Anda ingin menyalin model.
- Pilih sumber daya Ucapan di wilayah target, atau buat sumber daya Ucapan baru.
- Pilih proyek tempat Anda ingin menyalin model, atau buat proyek baru.
- Pilih Salin.
Setelah model berhasil disalin, Anda akan diberi tahu dan dapat melihatnya di proyek target.
Menyalin model langsung ke proyek di wilayah lain tidak didukung dengan Speech CLI. Anda dapat menyalin model ke proyek di wilayah lain menggunakan Speech Studio atau Speech ke REST API teks.
Untuk menyalin model ke sumber daya Ucapan lain, gunakan operasi Models_CopyTo Rest API Ucapan ke teks. Buat isi permintaan sesuai dengan instruksi berikut:
- Atur properti yang diperlukan
targetSubscriptionKey
ke kunci sumber daya Ucapan tujuan.
Buat permintaan HTTP POST menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Gunakan wilayah dan URI model yang ingin Anda salin. Ganti YourModelId
dengan ID model, ganti YourSubscriptionKey
dengan wilayah sumber daya Ucapan, ganti YourServiceRegion
dengan wilayah sumber daya Ucapan, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"targetSubscriptionKey": "ModelDestinationSpeechResourceKey"
} ' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models/YourModelId:copyto"
Catatan
Hanya properti targetSubscriptionKey
dalam isi permintaan yang memiliki informasi tentang sumber daya Ucapan tujuan.
Anda akan menerima isi respons dalam format berikut:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae",
"baseModel": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/eb5450a7-3ca2-461a-b2d7-ddbb3ad96540"
},
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae/manifest",
"copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae:copyto"
},
"properties": {
"deprecationDates": {
"adaptationDateTime": "2023-01-15T00:00:00Z",
"transcriptionDateTime": "2024-07-15T00:00:00Z"
}
},
"lastActionDateTime": "2022-05-22T23:15:27Z",
"status": "NotStarted",
"createdDateTime": "2022-05-22T23:15:27Z",
"locale": "en-US",
"displayName": "My Model",
"description": "My Model Description",
"customProperties": {
"PortalAPIVersion": "3",
"Purpose": "",
"VadKind": "None",
"ModelClass": "None",
"UsesHalide": "False",
"IsDynamicGrammarSupported": "False"
}
}
Menyambungkan model
Model mungkin telah disalin dari satu proyek menggunakan Speech CLI atau REST API, tanpa tersambung ke proyek lain. Menyambungkan model adalah masalah memperbarui model dengan referensi ke proyek.
Jika diminta di Speech Studio, Anda dapat menyambungkannya dengan memilih tombol Koneksi.
Untuk menyambungkan model ke proyek, gunakan spx csr model update
perintah. Buat parameter permintaan sesuai dengan instruksi berikut:
- Atur parameter
project
ke URI proyek yang ada. Parameter ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola model di Speech Studio. Anda dapat menjalankan perintahspx csr project list
untuk mendapatkan proyek yang tersedia. - Atur parameter
modelId
yang diperlukan ke ID model yang ingin Anda sambungkan ke proyek.
Berikut adalah contoh perintah Speech CLI yang menyambungkan model ke proyek:
spx csr model update --api-version v3.1 --model YourModelId --project YourProjectId
Anda akan menerima isi respons dalam format berikut:
{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
},
}
Untuk bantuan Speech CLI dengan model, jalankan perintah berikut:
spx help csr model
Untuk menyambungkan model baru ke proyek sumber daya Ucapan tempat model disalin, gunakan operasi Models_Update Rest API Ucapan ke teks. Buat isi permintaan sesuai dengan instruksi berikut:
- Atur properti yang diperlukan
project
ke URI proyek yang ada. Properti ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola model di Speech Studio. Anda dapat membuat permintaan Projects_List untuk mendapatkan proyek yang tersedia.
Buat permintaan HTTP PATCH menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Gunakan URI model baru. Anda bisa mendapatkan ID model baru dari self
properti isi respons Models_CopyTo . Ganti YourSubscriptionKey
dengan kunci sumber daya Ucapan Anda, ganti YourServiceRegion
dengan wilayah sumber daya Ucapan Anda, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.
curl -v -X PATCH -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
},
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models"
Anda akan menerima isi respons dalam format berikut:
{
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
},
}