Melatih model ucapan kustom

Artikel
01/22/2024

Dalam artikel ini, Anda mempelajari cara melatih model kustom untuk meningkatkan akurasi pengenalan dari model dasar Microsoft. Akurasi pengenalan ucapan dan kualitas model ucapan kustom tetap konsisten, bahkan ketika model dasar baru dirilis.

Catatan

Anda membayar penggunaan model ucapan kustom dan hosting titik akhir. Anda juga akan dikenakan biaya untuk pelatihan model ucapan kustom jika model dasar dibuat pada 1 Oktober 2023 dan yang lebih baru. Anda tidak dikenakan biaya untuk pelatihan jika model dasar dibuat sebelum Oktober 2023. Untuk informasi selengkapnya, lihat Harga Azure AI Speech dan bagian Biaya untuk adaptasi dalam panduan migrasi ucapan ke teks 3.2.

Melatih model biasanya menjadi proses berulang. Anda terlebih dahulu memilih model dasar yang merupakan titik awal untuk model baru. Anda melatih model dengan himpunan data yang dapat menyertakan teks dan audio, lalu Anda mengujinya. Jika kualitas atau akurasi pengenalan tidak memenuhi kebutuhan Anda, Anda dapat membuat model baru dengan lebih banyak atau memodifikasi data pelatihan, lalu menguji lagi.

Anda dapat menggunakan model kustom untuk waktu yang terbatas setelah dilatih. Namun, kami sarankan agar secara berkala Anda membuat ulang dan mengadaptasikan model kustom Anda dengan model dasar terbaru guna memanfaatkan peningkatan akurasi dan kualitas. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Penting

Jika Anda akan melatih model kustom dengan data audio, pilih wilayah sumber daya Ucapan dengan perangkat keras khusus untuk melatih data audio. Setelah model dilatih, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan.

Di wilayah dengan perangkat keras khusus untuk pelatihan ucapan kustom, layanan Ucapan akan menggunakan hingga 20 jam data pelatihan audio Anda, dan dapat memproses sekitar 10 jam data per hari. Di wilayah lain, layanan Ucapan menggunakan hingga 8 jam data audio Anda, dan dapat memproses sekitar 1 jam data per hari. Lihat catatan kaki di tabel wilayah untuk informasi selengkapnya.

Buat model

Setelah Anda mengunggah himpunan data pelatihan, ikuti instruksi berikut untuk mulai melatih model Anda:

Masuk ke Speech Studio.
Pilih Ucapan> kustom Nama >proyek Anda Melatih model kustom.
Pilih Latih model barul.
Di halaman Pilih model garis besar, pilih model dasar, dan kemudian pilih Berikutnya. Jika Anda tidak yakin, pilih model terbaru dari bagian atas daftar. Nama model dasar sesuai dengan tanggal saat dirilis dalam format YYYYMMDD. Kemampuan penyesuaian model dasar tercantum dalam tanda kurung setelah nama model di Speech Studio.

Penting

Catat tanggal Kedaluwarsa untuk adaptasi. Ini merupakan tanggal terakhir Anda dapat menggunakan model dasar untuk pelatihan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.
Di halaman Pilih data, pilih satu atau lebih himpunan data yang ingin Anda gunakan untuk pelatihan. Jika tidak ada himpunan data yang tersedia, batalkan penyiapan, lalu buka menu Himpunan data ucapan untuk mengunggah himpunan data.
Masukkan nama dan deskripsi untuk model kustom Anda, dan kemudian pilih Berikutnya.
Sesuai pilihan, centang kotak Tambahkan pengujian di langkah berikutnya. Jika melewati langkah ini, Anda dapat menjalankan pengujian yang sama nanti. Untuk informasi selengkapnya, lihat Menguji kualitas pengenalan dan Menguji model secara kuantitatif.
Pilih Simpan dan tutup untuk mengawali build untuk model kustom Anda.
Kembali ke halaman Latih model kustom.

Penting

Perhatikan tanggal Kedaluwarsa. Ini merupakan tanggal terakhir Anda dapat menggunakan model kustom untuk pengenalan ucapan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Untuk membuat model dengan himpunan data untuk pelatihan, gunakan perintah spx csr model create. Buat parameter permintaan sesuai dengan instruksi berikut:

Atur parameter project ke ID proyek yang ada. Parameter ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola model di Speech Studio. Anda dapat menjalankan perintah spx csr project list untuk mendapatkan proyek yang tersedia.
Atur parameter dataset yang diperlukan ke ID himpunan data yang ingin Anda gunakan untuk pelatihan. Untuk menentukan beberapa himpunan data, atur parameter (jamak) datasets dan pisahkan ID dengan titik koma.
Atur parameter language yang diperlukan. Lokal himpunan data harus cocok dengan lokal proyek. Lokal tidak dapat diubah nanti. Parameter language Speech CLI sesuai dengan properti locale dalam permintaan dan respons JSON.
Atur parameter name yang diperlukan. Parameter ini adalah nama yang ditampilkan di Speech Studio. Parameter name Speech CLI sesuai dengan properti displayName dalam permintaan dan respons JSON.
Secara opsional, Anda dapat mengatur properti base. Misalnya: --base 1aae1070-7972-47e9-a977-87e3b05c457d. Jika Anda tidak menentukan base, model dasar default untuk lokal digunakan. Parameter base Speech CLI sesuai dengan properti baseModel dalam permintaan dan respons JSON.

Berikut adalah contoh perintah Speech CLI yang membuat model dengan himpunan data untuk pelatihan:

spx csr model create --api-version v3.1 --project YourProjectId --name "My Model" --description "My Model Description" --dataset YourDatasetId --language "en-US"

Catatan

Dalam contoh ini, base tidak diatur, sehingga model dasar default untuk lokal digunakan. URI model dasar dikembalikan dalam respons.

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/manifest",
    "copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7:copyto"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-21T13:21:01Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-21T13:21:01Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Penting

Catat tanggal di adaptationDateTime properti. Ini merupakan tanggal terakhir Anda dapat menggunakan model dasar untuk pelatihan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Catat tanggal di transcriptionDateTime properti. Ini merupakan tanggal terakhir Anda dapat menggunakan model kustom untuk pengenalan ucapan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Properti self tingkat atas dalam isi respons adalah URI model. Gunakan URI ini untuk mendapatkan detail tentang proyek, manifes, dan tanggal penghentian model. Anda juga menggunakan URI ini untuk memperbarui atau menghapus model.

Untuk bantuan Speech CLI dengan model, jalankan perintah berikut:

spx help csr model

Untuk membuat model dengan himpunan data untuk pelatihan, gunakan operasi Models_Create Rest API Ucapan ke teks. Buat isi permintaan sesuai dengan instruksi berikut:

Atur properti project ke URI proyek yang ada. Properti ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola model di Speech Studio. Anda dapat membuat permintaan Projects_List untuk mendapatkan proyek yang tersedia.
Atur properti datasets yang diperlukan ke URI himpunan data yang ingin Anda gunakan untuk pelatihan.
Atur properti locale yang diperlukan. Lokal model harus cocok dengan lokal proyek dan model dasar. Lokal tidak dapat diubah nanti.
Atur properti displayName yang diperlukan. Properti ini adalah nama yang ditampilkan di Speech Studio.
Secara opsional, Anda dapat mengatur properti baseModel. Misalnya: "baseModel": {"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"}. Jika Anda tidak menentukan baseModel, model dasar default untuk lokal digunakan.

Buat permintaan HTTP POST menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Ganti YourSubscriptionKey dengan kunci sumber daya Ucapan Anda, ganti YourServiceRegion dengan wilayah sumber daya Ucapan Anda, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "displayName": "My Model",
  "description": "My Model Description",
  "baseModel": null,
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models"

Catatan

Dalam contoh ini, baseModel tidak diatur, sehingga model dasar default untuk lokal digunakan. URI model dasar dikembalikan dalam respons.

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/manifest",
    "copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7:copyto"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-21T13:21:01Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-21T13:21:01Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Penting

Properti self tingkat atas dalam isi respons adalah URI model. Gunakan URI ini untuk mendapatkan detail tentang proyek model, manifes, dan tanggal penghentian. Anda juga menggunakan URI ini untuk memperbarui atau menghapus model.

Menyalin model

Anda dapat menyalin model ke proyek lain yang menggunakan lokal yang sama. Misalnya, setelah model dilatih dengan data audio di wilayah dengan perangkat keras khusus untuk pelatihan, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan.

Ikuti instruksi berikut untuk menyalin model ke proyek di wilayah lain:

Masuk ke Speech Studio.
Pilih Ucapan> kustom Nama >proyek Anda Melatih model kustom.
Pilih salin.
Pada halaman Salin model ucapan, pilih wilayah target tempat Anda ingin menyalin model.
Pilih sumber daya Ucapan di wilayah target, atau buat sumber daya Ucapan baru.
Pilih proyek tempat Anda ingin menyalin model, atau buat proyek baru.
Pilih Salin.

Setelah model berhasil disalin, Anda akan diberi tahu dan dapat melihatnya di proyek target.

Menyalin model langsung ke proyek di wilayah lain tidak didukung dengan Speech CLI. Anda dapat menyalin model ke proyek di wilayah lain menggunakan Speech Studio atau Speech ke REST API teks.

Untuk menyalin model ke sumber daya Ucapan lain, gunakan operasi Models_CopyTo Rest API Ucapan ke teks. Buat isi permintaan sesuai dengan instruksi berikut:

Atur properti yang diperlukan targetSubscriptionKey ke kunci sumber daya Ucapan tujuan.

Buat permintaan HTTP POST menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Gunakan wilayah dan URI model yang ingin Anda salin. Ganti YourModelId dengan ID model, ganti YourSubscriptionKey dengan wilayah sumber daya Ucapan, ganti YourServiceRegion dengan wilayah sumber daya Ucapan, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "targetSubscriptionKey": "ModelDestinationSpeechResourceKey"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models/YourModelId:copyto"

Catatan

Hanya properti targetSubscriptionKey dalam isi permintaan yang memiliki informasi tentang sumber daya Ucapan tujuan.

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/eb5450a7-3ca2-461a-b2d7-ddbb3ad96540"
  },
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae/manifest",
    "copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae:copyto"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-22T23:15:27Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-22T23:15:27Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description",
  "customProperties": {
    "PortalAPIVersion": "3",
    "Purpose": "",
    "VadKind": "None",
    "ModelClass": "None",
    "UsesHalide": "False",
    "IsDynamicGrammarSupported": "False"
  }
}

Menyambungkan model

Model mungkin telah disalin dari satu proyek menggunakan Speech CLI atau REST API, tanpa tersambung ke proyek lain. Menyambungkan model adalah masalah memperbarui model dengan referensi ke proyek.

Jika diminta di Speech Studio, Anda dapat menyambungkannya dengan memilih tombol Koneksi.

Cuplikan layar halaman pelatihan koneksi yang menunjukkan model yang dapat disambungkan ke proyek saat ini.

Untuk menyambungkan model ke proyek, gunakan spx csr model update perintah. Buat parameter permintaan sesuai dengan instruksi berikut:

Atur parameter project ke URI proyek yang ada. Parameter ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola model di Speech Studio. Anda dapat menjalankan perintah spx csr project list untuk mendapatkan proyek yang tersedia.
Atur parameter modelId yang diperlukan ke ID model yang ingin Anda sambungkan ke proyek.

Berikut adalah contoh perintah Speech CLI yang menyambungkan model ke proyek:

spx csr model update --api-version v3.1 --model YourModelId --project YourProjectId

Anda akan menerima isi respons dalam format berikut:

{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}

Untuk bantuan Speech CLI dengan model, jalankan perintah berikut:

spx help csr model

Untuk menyambungkan model baru ke proyek sumber daya Ucapan tempat model disalin, gunakan operasi Models_Update Rest API Ucapan ke teks. Buat isi permintaan sesuai dengan instruksi berikut:

Atur properti yang diperlukan project ke URI proyek yang ada. Properti ini direkomendasikan sehingga Anda juga dapat melihat dan mengelola model di Speech Studio. Anda dapat membuat permintaan Projects_List untuk mendapatkan proyek yang tersedia.

Buat permintaan HTTP PATCH menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Gunakan URI model baru. Anda bisa mendapatkan ID model baru dari self properti isi respons Models_CopyTo . Ganti YourSubscriptionKey dengan kunci sumber daya Ucapan Anda, ganti YourServiceRegion dengan wilayah sumber daya Ucapan Anda, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.

curl -v -X PATCH -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models"

Anda akan menerima isi respons dalam format berikut:

{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}

Melatih model ucapan kustom

Buat model

Menyalin model

Menyambungkan model

Langkah berikutnya

Sumber Daya Tambahan: