Bagikan melalui


Melatih model suara profesional Anda

Dalam artikel ini, Anda akan mempelajari cara melatih suara neural kustom melalui portal Speech Studio.

Penting

Pelatihan suara neural kustom saat ini hanya tersedia di beberapa wilayah. Setelah model suara Anda dilatih di wilayah yang didukung, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan. Untuk informasi selengkapnya, lihat catatan kaki dalam tabel layanan Ucapan.

Durasi pelatihan bervariasi tergantung pada berapa banyak data yang Anda gunakan. Dibutuhkan waktu rata-rata sekitar 40 jam komputasi untuk melatih suara neural kustom. Pengguna langganan standar (S0) dapat melatih empat suara secara bersamaan. Jika Anda mencapai batas, tunggu hingga setidaknya salah satu model suara Anda menyelesaikan pelatihan, lalu coba lagi.

Catatan

Meskipun jumlah total jam yang diperlukan per metode pelatihan bervariasi, harga satuan yang sama berlaku untuk masing-masing. Untuk informasi selengkapnya, lihat detail harga pelatihan neural kustom.

Pilih metode pelatihan

Setelah Memvalidasi file data, gunakan file tersebut untuk membangun model suara neural kustom Anda. Saat membuat suara saraf kustom, Anda dapat memilih untuk melatihnya dengan salah satu metode berikut:

  • Neural: Buat suara dalam bahasa yang sama dengan data pelatihan Anda.

  • Neural - bahasa silang: Buat suara yang berbicara bahasa yang berbeda dari data pelatihan Anda. Misalnya, dengan zh-CN data pelatihan, Anda dapat membuat suara yang berbicara en-US.

    Bahasa data pelatihan dan bahasa target keduanya harus menjadi salah satu bahasa yang didukung untuk pelatihan suara lintas bahasa. Anda tidak perlu menyiapkan data pelatihan dalam bahasa target, tetapi skrip pengujian Anda harus dalam bahasa target.

  • Neural - multi gaya: Buat suara saraf kustom yang berbicara dalam beberapa gaya dan emosi, tanpa menambahkan data pelatihan baru. Beberapa suara gaya berguna untuk karakter video game, chatbot percakapan, buku audio, pembaca konten, dan banyak lagi.

    Untuk membuat suara beberapa gaya, Anda perlu menyiapkan sekumpulan data pelatihan umum, setidaknya 300 ucapan. Pilih satu atau beberapa gaya berbicara target prasetel. Anda juga dapat membuat beberapa gaya kustom dengan menyediakan sampel gaya, setidaknya 100 ucapan per gaya, sebagai data pelatihan tambahan untuk suara yang sama. Gaya prasetel yang didukung bervariasi sesuai dengan bahasa yang berbeda. Lihat gaya prasetel yang tersedia di berbagai bahasa.

Bahasa data pelatihan harus menjadi salah satu bahasa yang didukung untuk suara saraf kustom, lintas bahasa, atau pelatihan gaya ganda.

Melatih model suara neural kustom Anda

Untuk membuat suara neural kustom di Speech Studio, ikuti langkah-langkah berikut untuk salah satu metode berikut:

  1. Masuk ke Speech Studio.

  2. Pilih Suara<>kustom Nama>>proyek Anda Melatih model>Melatih model baru.

  3. Pilih Neural sebagai metode pelatihan untuk model Anda lalu pilih Berikutnya. Untuk menggunakan metode pelatihan yang berbeda, lihat Neural - bahasa silang atau Neural - multi gaya.

    Cuplikan layar yang memperlihatkan cara memilih pelatihan neural.

  4. Pilih versi resep pelatihan untuk model Anda. Versi terbaru akan dipilih secara default. Fitur dan waktu pelatihan yang didukung dapat bervariasi menurut versi. Biasanya, kami merekomendasikan versi terbaru. Dalam beberapa kasus, Anda dapat memilih versi yang lebih lama untuk mengurangi waktu pelatihan. Lihat Pelatihan dua bahasa untuk informasi selengkapnya tentang pelatihan dua bahasa dan perbedaan antara lokal.

    Catatan

    Versi model V2.2021.07, , V4.2021.10V5.2022.05, V6.2022.11, dan V9.2023.10 akan dihentikan pada 1 Oktober 2024. Model suara yang sudah dibuat pada versi yang dihentikan ini tidak akan terpengaruh.

  5. Pilih data yang ingin Anda gunakan untuk pelatihan. Nama audio duplikat akan dihapus dari pelatihan. Pastikan bahwa data yang Anda pilih tidak berisi nama audio yang sama di beberapa file .zip .

    Anda hanya dapat memilih himpunan data yang berhasil diproses untuk pelatihan. Jika Anda tidak melihat set pelatihan Anda dalam daftar, periksa status pemrosesan data Anda.

  6. Pilih file pembicara dengan pernyataan bakat suara yang sesuai dengan pembicara dalam data pelatihan Anda.

  7. Pilih Selanjutnya.

  8. Setiap pelatihan menghasilkan 100 file audio sampel secara otomatis untuk membantu Anda menguji model dengan skrip default.

    Secara opsional, Anda juga dapat memilih Tambahkan skrip pengujian saya sendiri dan berikan skrip pengujian Anda sendiri hingga 100 ucapan untuk menguji model tanpa biaya tambahan. File audio yang dihasilkan adalah kombinasi dari skrip pengujian otomatis dan skrip pengujian kustom. Untuk informasi selengkapnya, lihat persyaratan skrip pengujian.

  9. Masukkan Nama untuk membantu Anda mengidentifikasi model. Pilih nama dengan hati-hati. Nama model digunakan sebagai nama suara dalam permintaan sintesis ucapan Anda oleh input SDK dan SSML. Hanya huruf, angka, dan beberapa karakter tanda baca yang diizinkan. Gunakan nama yang berbeda untuk model suara neural yang berbeda.

  10. Secara opsional, masukkan Deskripsi untuk membantu Anda mengidentifikasi model. Penggunaan umum deskripsi adalah merekam nama data yang Anda gunakan untuk membuat model.

  11. Pilih Selanjutnya.

  12. Tinjau pengaturan dan pilih kotak untuk menerima ketentuan penggunaan.

  13. Pilih Kirim untuk mulai melatih model.

Pelatihan dua bahasa

Jika Anda memilih jenis pelatihan Neural , Anda dapat melatih suara untuk berbicara dalam beberapa bahasa. Lokal zh-CN, , zh-HKdan zh-TW mendukung pelatihan dua bahasa agar suara dapat berbicara bahasa Tionghoa dan Inggris. Bergantung sebagian pada data pelatihan Anda, suara yang disintesis dapat berbicara bahasa Inggris dengan aksen asli bahasa Inggris atau bahasa Inggris dengan aksen yang sama dengan data pelatihan.

Catatan

Untuk mengaktifkan suara di zh-CN lokal untuk berbicara bahasa Inggris dengan aksen yang sama dengan data sampel, Anda harus memilih Chinese (Mandarin, Simplified), English bilingual saat membuat proyek atau menentukan zh-CN (English bilingual) lokal untuk data set pelatihan melalui REST API.

Tabel berikut ini memperlihatkan perbedaan di antara lokal:

Lokal Speech Studio Lokal REST API Dukungan dua bahasa
Chinese (Mandarin, Simplified) zh-CN Jika data sampel Anda menyertakan bahasa Inggris, suara yang disintesis berbicara bahasa Inggris dengan aksen asli bahasa Inggris, alih-alih aksen yang sama dengan data sampel, terlepas dari jumlah data bahasa Inggris.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Jika Anda ingin suara yang disintesis berbicara bahasa Inggris dengan aksen yang sama dengan data sampel, sebaiknya sertakan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, aksen berbahasa Inggris mungkin tidak ideal.
Chinese (Cantonese, Simplified) zh-HK Jika Anda ingin melatih suara yang disintesis yang mampu berbicara bahasa Inggris dengan aksen yang sama dengan data sampel Anda, pastikan untuk memberikan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, defaultnya adalah aksen asli bahasa Inggris. Ambang batas 10% dihitung berdasarkan data yang diterima setelah berhasil diunggah, bukan data sebelum diunggah. Jika beberapa data bahasa Inggris yang diunggah ditolak karena cacat dan tidak memenuhi ambang 10%, suara yang disintesis default ke aksen asli bahasa Inggris.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Jika Anda ingin melatih suara yang disintesis yang mampu berbicara bahasa Inggris dengan aksen yang sama dengan data sampel Anda, pastikan untuk memberikan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, defaultnya adalah aksen asli bahasa Inggris. Ambang batas 10% dihitung berdasarkan data yang diterima setelah berhasil diunggah, bukan data sebelum diunggah. Jika beberapa data bahasa Inggris yang diunggah ditolak karena cacat dan tidak memenuhi ambang 10%, suara yang disintesis default ke aksen asli bahasa Inggris.

Gaya prasetel yang tersedia di berbagai bahasa

Tabel berikut ini meringkas gaya prasetel yang berbeda sesuai dengan bahasa yang berbeda.

Gaya berbicara Bahasa (lokal)
marah Inggris (Amerika Serikat) (en-US)
Jepang (Jepang) (ja-JP) 1
Mandarin (Mandarin, Sederhana) (zh-CN) 1
tenang Mandarin (Mandarin, Sederhana) (zh-CN) 1
mengobrol Mandarin (Mandarin, Sederhana) (zh-CN) 1
gembira Inggris (Amerika Serikat) (en-US)
Jepang (Jepang) (ja-JP) 1
Mandarin (Mandarin, Sederhana) (zh-CN) 1
tidak puas Mandarin (Mandarin, Sederhana) (zh-CN) 1
gembira Inggris (Amerika Serikat) (en-US)
takut Mandarin (Mandarin, Sederhana) (zh-CN) 1
ramah Inggris (Amerika Serikat) (en-US)
Berharap Inggris (Amerika Serikat) (en-US)
Sedih Inggris (Amerika Serikat) (en-US)
Jepang (Jepang) (ja-JP) 1
Mandarin (Mandarin, Sederhana) (zh-CN) 1
Berteriak Inggris (Amerika Serikat) (en-US)
serius Mandarin (Mandarin, Sederhana) (zh-CN) 1
takut Inggris (Amerika Serikat) (en-US)
Ramah Inggris (Amerika Serikat) (en-US)
Berbisik Inggris (Amerika Serikat) (en-US)

1 Gaya suara neural tersedia dalam pratinjau publik. Gaya dalam pratinjau publik hanya tersedia di wilayah layanan ini: US Timur, Eropa Barat, dan Asia Tenggara.


Tabel Latih model menampilkan entri baru yang sesuai dengan model yang baru dibuat ini. Status mencerminkan proses konversi data Anda ke model suara, seperti yang dijelaskan dalam tabel ini:

Provinsi Makna
Sedang diproses Model suara Anda sedang dibuat.
Berhasil Model suara Anda telah dibuat dan dapat disebarkan.
Gagal Model suara Anda telah gagal dalam pelatihan. Penyebab kegagalan mungkin, misalnya, masalah data yang tidak terlihat atau masalah jaringan.
Canceled Pelatihan untuk model suara Anda dibatalkan.

Saat status model sedang Diproses, Anda dapat memilih Batalkan pelatihan untuk membatalkan model suara Anda. Anda tidak dikenakan biaya untuk pelatihan yang dibatalkan ini.

Cuplikan layar yang menampilkan cara membatalkan pelatihan untuk model.

Setelah berhasil melatih model, Anda dapat meninjau detail model dan Menguji model suara Anda.

Anda dapat menggunakan alat Pembuatan Konten Audio di Speech Studio untuk membuat audio dan menyempurnakan suara yang Anda sebarkan. Jika berlaku untuk suara, Anda dapat memilih salah satu dari beberapa gaya.

Mengganti nama model Anda

  1. Jika Anda ingin mengganti nama model yang Anda buat, pilih Kloning model untuk membuat klon model dengan nama baru dalam proyek saat ini.

    Cuplikan layar pemilihan tombol Klon model.

  2. Masukkan nama baru di jendela Kloning model suara, lalu pilih Kirim. Teks Neural secara otomatis ditambahkan sebagai akhiran ke nama model baru Anda.

    Cuplikan layar pengkloningan model dengan nama baru.

Menguji model suara Anda

Setelah model suara berhasil dibuat, Anda dapat menggunakan file audio sampel yang dihasilkan untuk mengujinya sebelum menyebarkannya.

Kualitas suara bergantung pada banyak faktor, seperti:

  • Ukuran pelatihan data.
  • Kualitas rekaman.
  • Keakuratan file transkrip.
  • Seberapa baik suara yang direkam dalam data pelatihan cocok dengan kepribadian suara yang dirancang untuk kasus penggunaan yang Anda maksudkan.

Pilih DefaultTests di bawah Pengujian untuk mendengarkan file audio sampel. Sampel pengujian default mencakup 100 sampel file audio yang dihasilkan secara otomatis selama pelatihan untuk membantu Anda menguji model. Selain 100 file audio yang disediakan secara default, ucapan skrip pengujian Anda sendiri juga ditambahkan ke set DefaultTests . Penambahan ini paling banyak 100 ucapan. Anda tidak dikenakan biaya untuk pengujian dengan DefaultTests.

Cuplikan layar pemilihan DefaultTests pada Pengujian.

Jika Anda ingin mengunggah skrip pengujian Anda sendiri untuk menguji model Anda lebih lanjut, pilih Tambahkan skrip pengujian untuk mengunggah skrip pengujian Anda sendiri.

Cuplikan layar penambahan skrip pengujian model.

Sebelum Anda mengunggah skrip pengujian, periksa persyaratan Uji skrip. Anda dikenakan biaya untuk pengujian tambahan dengan sintesis batch berdasarkan jumlah karakter yang dapat ditagih. Lihat Harga Azure AI Speech.

Di bawah Tambahkan skrip pengujian, pilih Telusuri file untuk memilih skrip Anda sendiri, lalu pilih Tambahkan untuk mengunggahnya.

Cuplikan layar pengunggahan skrip pengujian model.

Persyaratan skrip pengujian

Skrip pengujian harus berupa file .txt yang kurang dari 1 MB. Format pengodean yang didukung mencakup ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, atau UTF-16-BE.

Tidak seperti file transkripsi pelatihan, skrip pengujian harus mengecualikan ID ucapan, yang merupakan nama file dari setiap ucapan. Jika tidak, ID ini diucapkan.

Berikut adalah contoh sekumpulan ucapan dalam satu file .txt :

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Setiap paragraf hasil ungkapan akan menghasilkan audio terpisah. Jika Anda ingin menggabungkan semua kalimat dalam satu audio, buat dalam satu paragraf.

Catatan

File audio yang dihasilkan adalah kombinasi dari skrip pengujian otomatis dan skrip pengujian kustom.

Memperbarui versi mesin bagi model suara Anda

Mesin teks ke ucapan Azure diperbarui dari waktu ke waktu untuk mengambil model bahasa terbaru yang menentukan pengucapan bahasa. Setelah melatih suara, Anda dapat menerapkan suara ke model bahasa baru dengan memperbarui ke versi mesin terbaru.

  1. Saat mesin baru tersedia, Anda akan segera diminta untuk memperbarui model suara neural Anda.

    Cuplikan layar tampilan pesan pembaruan mesin.

  2. Buka halaman detail model dan ikuti petunjuk di layar untuk menginstal mesin terbaru.

    Cuplikan layar petunjuk berikut di layar untuk menginstal mesin baru.

    Atau, pilih Instal mesin terbaru nanti untuk memperbarui model Anda ke versi mesin terbaru.

    Cuplikan layar memilih tombol Instal mesin terbaru untuk memperbarui mesin.

    Anda tidak akan dikenakan biaya untuk pembaruan mesin. Versi sebelumnya masih akan disimpan.

  3. Anda dapat memeriksa semua versi mesin untuk model dari daftar Versi mesin, atau menghapusnya jika Anda tidak membutuhkannya lagi.

    Cuplikan layar tampilan versi Mesin di daftar drop-down.

    Versi yang diperbarui secara otomatis akan diatur sebagai default. Tetapi Anda dapat mengubah versi default dengan memilih versi dari daftar drop-down dan memilih Atur sebagai default.

    Cuplikan layar yang menampilkan cara mengatur versi sebagai default.

Jika Anda ingin menguji setiap versi mesin model suara, Anda dapat memilih versi dari daftar, lalu pilih DefaultTests di bawah Pengujian untuk mendengarkan file audio sampel. Jika Anda ingin mengunggah skrip pengujian Anda sendiri untuk menguji lebih lanjut versi mesin Anda saat ini, pertama-tama pastikan versi diatur sebagai default, lalu ikuti langkah-langkah dalam Menguji model suara Anda.

Memperbarui mesin membuat versi baru model tanpa biaya tambahan. Setelah memperbarui versi mesin untuk model suara, Anda perlu menyebarkan versi baru untuk membuat titik akhir baru. Anda hanya bisa menyebarkan versi default.

Cuplikan layar yang memperlihatkan cara menyebarkan ulang versi baru model suara Anda.

Setelah membuat titik akhir baru, Anda perlu mentransfer lalu lintas ke titik akhir baru di produk Anda.

Untuk mempelajari selengkapnya tentang kemampuan dan batas fitur ini, dan praktik terbaik untuk meningkatkan kualitas model Anda, lihat Karakteristik dan batasan untuk menggunakan suara saraf kustom.

Menyalin model suara Anda ke proyek lain

Anda dapat menyalin model suara ke proyek lain untuk wilayah yang sama atau wilayah lain. Misalnya, Anda dapat menyalin model suara neural yang dilatih di satu wilayah, ke suatu proyek untuk wilayah lain.

Catatan

Pelatihan suara neural kustom saat ini hanya tersedia di beberapa wilayah. Anda dapat menyalin model suara neural dari wilayah tersebut ke wilayah lain. Untuk informasi selengkapnya, lihat wilayah untuk suara neural kustom.

Untuk menyalin model suara neural kustom Anda ke proyek lain:

  1. Di tab Latih model, pilih model suara yang ingin disalin, lalu pilih Salin ke proyek.

    Cuplikan layar opsi salin ke proyek.

  2. Pilih Langganan, Wilayah, Sumber daya Ucapan, dan Proyek tempat Anda ingin menyalin model. Anda harus memiliki sumber daya ucapan dan proyek di wilayah target, jika tidak, Anda perlu membuatnya terlebih dahulu.

    Cuplikan layar dialog salin model suara.

  3. Pilih Kirim untuk menyalin model tersebut.

  4. Pilih Tampilkan model di bawah pesan pemberitahuan untuk penyalinan yang berhasil.

Navigasikan ke proyek tempat Anda menyalin model untuk menyebarkan salinan model.

Langkah berikutnya

Dalam artikel ini, Anda mempelajari cara melatih suara neural kustom melalui API suara kustom.

Penting

Pelatihan suara neural kustom saat ini hanya tersedia di beberapa wilayah. Setelah model suara Anda dilatih di wilayah yang didukung, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan. Untuk informasi selengkapnya, lihat catatan kaki dalam tabel layanan Ucapan.

Durasi pelatihan bervariasi tergantung pada berapa banyak data yang Anda gunakan. Dibutuhkan waktu rata-rata sekitar 40 jam komputasi untuk melatih suara neural kustom. Pengguna langganan standar (S0) dapat melatih empat suara secara bersamaan. Jika Anda mencapai batas, tunggu hingga setidaknya salah satu model suara Anda menyelesaikan pelatihan, lalu coba lagi.

Catatan

Meskipun jumlah total jam yang diperlukan per metode pelatihan bervariasi, harga satuan yang sama berlaku untuk masing-masing. Untuk informasi selengkapnya, lihat detail harga pelatihan neural kustom.

Pilih metode pelatihan

Setelah Memvalidasi file data, gunakan file tersebut untuk membangun model suara neural kustom Anda. Saat membuat suara saraf kustom, Anda dapat memilih untuk melatihnya dengan salah satu metode berikut:

  • Neural: Buat suara dalam bahasa yang sama dengan data pelatihan Anda.

  • Neural - bahasa silang: Buat suara yang berbicara bahasa yang berbeda dari data pelatihan Anda. Misalnya, dengan fr-FR data pelatihan, Anda dapat membuat suara yang berbicara en-US.

    Bahasa data pelatihan dan bahasa target keduanya harus menjadi salah satu bahasa yang didukung untuk pelatihan suara lintas bahasa. Anda tidak perlu menyiapkan data pelatihan dalam bahasa target, tetapi skrip pengujian Anda harus dalam bahasa target.

  • Neural - multi gaya: Buat suara saraf kustom yang berbicara dalam beberapa gaya dan emosi, tanpa menambahkan data pelatihan baru. Beberapa suara gaya berguna untuk karakter video game, chatbot percakapan, buku audio, pembaca konten, dan banyak lagi.

    Untuk membuat suara beberapa gaya, Anda perlu menyiapkan sekumpulan data pelatihan umum, setidaknya 300 ucapan. Pilih satu atau beberapa gaya berbicara target prasetel. Anda juga dapat membuat beberapa gaya kustom dengan menyediakan sampel gaya, setidaknya 100 ucapan per gaya, sebagai data pelatihan tambahan untuk suara yang sama. Gaya prasetel yang didukung bervariasi sesuai dengan bahasa yang berbeda. Lihat gaya prasetel yang tersedia di berbagai bahasa.

Bahasa data pelatihan harus menjadi salah satu bahasa yang didukung untuk suara saraf kustom, lintas bahasa, atau pelatihan gaya ganda.

Membuat model suara

Untuk membuat suara saraf, gunakan operasi Models_Create API suara kustom. Buat isi permintaan sesuai dengan instruksi berikut:

  • Atur properti projectId yang diperlukan. Lihat membuat proyek.
  • Atur properti consentId yang diperlukan. Lihat menambahkan persetujuan bakat suara.
  • Atur properti trainingSetId yang diperlukan. Lihat membuat set pelatihan.
  • Atur properti resep kind yang diperlukan ke Default untuk pelatihan suara saraf. Jenis resep menunjukkan metode pelatihan dan tidak dapat diubah nanti. Untuk menggunakan metode pelatihan yang berbeda, lihat Neural - bahasa silang atau Neural - multi gaya. Lihat Pelatihan dua bahasa untuk informasi selengkapnya tentang pelatihan dua bahasa dan perbedaan antara lokal.
  • Atur properti voiceName yang diperlukan. Nama suara harus diakhir dengan "Neural" dan tidak dapat diubah nanti. Pilih nama dengan hati-hati. Nama suara digunakan dalam permintaan sintesis ucapan Anda oleh input SDK dan SSML. Hanya huruf, angka, dan beberapa karakter tanda baca yang diizinkan. Gunakan nama yang berbeda untuk model suara neural yang berbeda.
  • Secara opsional, atur description properti untuk deskripsi suara. Deskripsi suara dapat diubah nanti.

Buat permintaan HTTP PUT menggunakan URI seperti yang ditunjukkan dalam contoh Models_Create berikut.

  • Ganti YourResourceKey dengan kunci sumber daya Ucapan Anda.
  • Ganti YourResourceRegion dengan wilayah sumber daya Ucapan Anda.
  • Ganti JessicaModelId dengan ID model pilihan Anda. ID peka huruf besar/kecil akan digunakan dalam URI model dan tidak dapat diubah nanti.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Anda akan menerima isi respons dalam format berikut:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Pelatihan dua bahasa

Jika Anda memilih jenis pelatihan Neural , Anda dapat melatih suara untuk berbicara dalam beberapa bahasa. Lokal zh-CN, , zh-HKdan zh-TW mendukung pelatihan dua bahasa agar suara dapat berbicara bahasa Tionghoa dan Inggris. Bergantung sebagian pada data pelatihan Anda, suara yang disintesis dapat berbicara bahasa Inggris dengan aksen asli bahasa Inggris atau bahasa Inggris dengan aksen yang sama dengan data pelatihan.

Catatan

Untuk mengaktifkan suara di zh-CN lokal untuk berbicara bahasa Inggris dengan aksen yang sama dengan data sampel, Anda harus memilih Chinese (Mandarin, Simplified), English bilingual saat membuat proyek atau menentukan zh-CN (English bilingual) lokal untuk data set pelatihan melalui REST API.

Tabel berikut ini memperlihatkan perbedaan di antara lokal:

Lokal Speech Studio Lokal REST API Dukungan dua bahasa
Chinese (Mandarin, Simplified) zh-CN Jika data sampel Anda menyertakan bahasa Inggris, suara yang disintesis berbicara bahasa Inggris dengan aksen asli bahasa Inggris, alih-alih aksen yang sama dengan data sampel, terlepas dari jumlah data bahasa Inggris.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Jika Anda ingin suara yang disintesis berbicara bahasa Inggris dengan aksen yang sama dengan data sampel, sebaiknya sertakan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, aksen berbahasa Inggris mungkin tidak ideal.
Chinese (Cantonese, Simplified) zh-HK Jika Anda ingin melatih suara yang disintesis yang mampu berbicara bahasa Inggris dengan aksen yang sama dengan data sampel Anda, pastikan untuk memberikan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, defaultnya adalah aksen asli bahasa Inggris. Ambang batas 10% dihitung berdasarkan data yang diterima setelah berhasil diunggah, bukan data sebelum diunggah. Jika beberapa data bahasa Inggris yang diunggah ditolak karena cacat dan tidak memenuhi ambang 10%, suara yang disintesis default ke aksen asli bahasa Inggris.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Jika Anda ingin melatih suara yang disintesis yang mampu berbicara bahasa Inggris dengan aksen yang sama dengan data sampel Anda, pastikan untuk memberikan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, defaultnya adalah aksen asli bahasa Inggris. Ambang batas 10% dihitung berdasarkan data yang diterima setelah berhasil diunggah, bukan data sebelum diunggah. Jika beberapa data bahasa Inggris yang diunggah ditolak karena cacat dan tidak memenuhi ambang 10%, suara yang disintesis default ke aksen asli bahasa Inggris.

Gaya prasetel yang tersedia di berbagai bahasa

Tabel berikut ini meringkas gaya prasetel yang berbeda sesuai dengan bahasa yang berbeda.

Gaya berbicara Bahasa (lokal)
marah Inggris (Amerika Serikat) (en-US)
Jepang (Jepang) (ja-JP) 1
Mandarin (Mandarin, Sederhana) (zh-CN) 1
tenang Mandarin (Mandarin, Sederhana) (zh-CN) 1
mengobrol Mandarin (Mandarin, Sederhana) (zh-CN) 1
gembira Inggris (Amerika Serikat) (en-US)
Jepang (Jepang) (ja-JP) 1
Mandarin (Mandarin, Sederhana) (zh-CN) 1
tidak puas Mandarin (Mandarin, Sederhana) (zh-CN) 1
gembira Inggris (Amerika Serikat) (en-US)
takut Mandarin (Mandarin, Sederhana) (zh-CN) 1
ramah Inggris (Amerika Serikat) (en-US)
Berharap Inggris (Amerika Serikat) (en-US)
Sedih Inggris (Amerika Serikat) (en-US)
Jepang (Jepang) (ja-JP) 1
Mandarin (Mandarin, Sederhana) (zh-CN) 1
Berteriak Inggris (Amerika Serikat) (en-US)
serius Mandarin (Mandarin, Sederhana) (zh-CN) 1
takut Inggris (Amerika Serikat) (en-US)
Ramah Inggris (Amerika Serikat) (en-US)
Berbisik Inggris (Amerika Serikat) (en-US)

1 Gaya suara neural tersedia dalam pratinjau publik. Gaya dalam pratinjau publik hanya tersedia di wilayah layanan ini: US Timur, Eropa Barat, dan Asia Tenggara.


Dapatkan status pelatihan

Untuk mendapatkan status pelatihan model suara, gunakan operasi Models_Get API suara kustom. Buat URI permintaan sesuai dengan instruksi berikut:

Buat permintaan HTTP GET menggunakan URI seperti yang ditunjukkan dalam contoh Models_Get berikut.

  • Ganti YourResourceKey dengan kunci sumber daya Ucapan Anda.
  • Ganti YourResourceRegion dengan wilayah sumber daya Ucapan Anda.
  • Ganti JessicaModelId jika Anda menentukan ID model yang berbeda di langkah sebelumnya.
curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Anda harus menerima isi respons dalam format berikut.

Catatan

Resep kind dan properti lainnya tergantung pada cara Anda melatih suara. Dalam contoh ini, jenis resep adalah Default untuk pelatihan suara saraf.

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Anda mungkin perlu menunggu beberapa menit sebelum pelatihan selesai. Akhirnya status akan berubah menjadi atau Succeeded Failed.

Langkah berikutnya