Melatih model suara profesional Anda

Artikel
09/23/2024

Dalam artikel ini, Anda akan mempelajari cara melatih suara neural kustom melalui portal Speech Studio.

Penting

Pelatihan suara neural kustom saat ini hanya tersedia di beberapa wilayah. Setelah model suara Anda dilatih di wilayah yang didukung, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan. Untuk informasi selengkapnya, lihat catatan kaki dalam tabel layanan Ucapan.

Durasi pelatihan bervariasi tergantung pada berapa banyak data yang Anda gunakan. Dibutuhkan waktu rata-rata sekitar 40 jam komputasi untuk melatih suara neural kustom. Pengguna langganan standar (S0) dapat melatih empat suara secara bersamaan. Jika Anda mencapai batas, tunggu hingga setidaknya salah satu model suara Anda menyelesaikan pelatihan, lalu coba lagi.

Catatan

Meskipun jumlah total jam yang diperlukan per metode pelatihan bervariasi, harga satuan yang sama berlaku untuk masing-masing. Untuk informasi selengkapnya, lihat detail harga pelatihan neural kustom.

Pilih metode pelatihan

Setelah Memvalidasi file data, gunakan file tersebut untuk membangun model suara neural kustom Anda. Saat membuat suara saraf kustom, Anda dapat memilih untuk melatihnya dengan salah satu metode berikut:

Neural: Buat suara dalam bahasa yang sama dengan data pelatihan Anda.
Neural - bahasa silang: Buat suara yang berbicara bahasa yang berbeda dari data pelatihan Anda. Misalnya, dengan zh-CN data pelatihan, Anda dapat membuat suara yang berbicara en-US.

Bahasa data pelatihan dan bahasa target keduanya harus menjadi salah satu bahasa yang didukung untuk pelatihan suara lintas bahasa. Anda tidak perlu menyiapkan data pelatihan dalam bahasa target, tetapi skrip pengujian Anda harus dalam bahasa target.
Neural - multi gaya: Buat suara saraf kustom yang berbicara dalam beberapa gaya dan emosi, tanpa menambahkan data pelatihan baru. Beberapa suara gaya berguna untuk karakter video game, chatbot percakapan, buku audio, pembaca konten, dan banyak lagi.

Untuk membuat suara beberapa gaya, Anda perlu menyiapkan sekumpulan data pelatihan umum, setidaknya 300 ucapan. Pilih satu atau beberapa gaya berbicara target prasetel. Anda juga dapat membuat beberapa gaya kustom dengan menyediakan sampel gaya, setidaknya 100 ucapan per gaya, sebagai data pelatihan tambahan untuk suara yang sama. Gaya prasetel yang didukung bervariasi sesuai dengan bahasa yang berbeda. Lihat gaya prasetel yang tersedia di berbagai bahasa.

Bahasa data pelatihan harus menjadi salah satu bahasa yang didukung untuk suara saraf kustom, lintas bahasa, atau pelatihan gaya ganda.

Melatih model suara neural kustom Anda

Untuk membuat suara neural kustom di Speech Studio, ikuti langkah-langkah berikut untuk salah satu metode berikut:

Masuk ke Speech Studio.
Pilih Suara<>kustom Nama>>proyek Anda Melatih model>Melatih model baru.
Pilih Neural sebagai metode pelatihan untuk model Anda lalu pilih Berikutnya. Untuk menggunakan metode pelatihan yang berbeda, lihat Neural - bahasa silang atau Neural - multi gaya.
Pilih versi resep pelatihan untuk model Anda. Versi terbaru akan dipilih secara default. Fitur dan waktu pelatihan yang didukung dapat bervariasi menurut versi. Biasanya, kami merekomendasikan versi terbaru. Dalam beberapa kasus, Anda dapat memilih versi yang lebih lama untuk mengurangi waktu pelatihan. Lihat Pelatihan dua bahasa untuk informasi selengkapnya tentang pelatihan dua bahasa dan perbedaan antara lokal.

Catatan

Versi model V2.2021.07, , V4.2021.10V5.2022.05, V6.2022.11, dan V9.2023.10 akan dihentikan pada 1 Oktober 2024. Model suara yang sudah dibuat pada versi yang dihentikan ini tidak akan terpengaruh.
Pilih data yang ingin Anda gunakan untuk pelatihan. Nama audio duplikat akan dihapus dari pelatihan. Pastikan bahwa data yang Anda pilih tidak berisi nama audio yang sama di beberapa file .zip .

Anda hanya dapat memilih himpunan data yang berhasil diproses untuk pelatihan. Jika Anda tidak melihat set pelatihan Anda dalam daftar, periksa status pemrosesan data Anda.
Pilih file pembicara dengan pernyataan bakat suara yang sesuai dengan pembicara dalam data pelatihan Anda.
Pilih Selanjutnya.
Setiap pelatihan menghasilkan 100 file audio sampel secara otomatis untuk membantu Anda menguji model dengan skrip default.

Secara opsional, Anda juga dapat memilih Tambahkan skrip pengujian saya sendiri dan berikan skrip pengujian Anda sendiri hingga 100 ucapan untuk menguji model tanpa biaya tambahan. File audio yang dihasilkan adalah kombinasi dari skrip pengujian otomatis dan skrip pengujian kustom. Untuk informasi selengkapnya, lihat persyaratan skrip pengujian.
Masukkan Nama untuk membantu Anda mengidentifikasi model. Pilih nama dengan hati-hati. Nama model digunakan sebagai nama suara dalam permintaan sintesis ucapan Anda oleh input SDK dan SSML. Hanya huruf, angka, dan beberapa karakter tanda baca yang diizinkan. Gunakan nama yang berbeda untuk model suara neural yang berbeda.
Secara opsional, masukkan Deskripsi untuk membantu Anda mengidentifikasi model. Penggunaan umum deskripsi adalah merekam nama data yang Anda gunakan untuk membuat model.
Pilih Selanjutnya.
Tinjau pengaturan dan pilih kotak untuk menerima ketentuan penggunaan.
Pilih Kirim untuk mulai melatih model.

Masuk ke Speech Studio.
Pilih Suara<>kustom Nama>>proyek Anda Melatih model>Melatih model baru.
Pilih Neural - multi gaya sebagai metode pelatihan untuk model Anda. Untuk menggunakan metode pelatihan yang berbeda, lihat Neural atau Neural - bahasa silang.
Pilih satu atau beberapa gaya berbicara prasetel untuk dilatih.
Pilih data yang ingin Anda gunakan untuk pelatihan. Nama audio duplikat akan dihapus dari pelatihan. Pastikan bahwa data yang Anda pilih tidak berisi nama audio yang sama di beberapa file .zip .

Anda hanya dapat memilih himpunan data yang berhasil diproses untuk pelatihan. Periksa status pemrosesan data Jika Anda tidak melihat kumpulan pelatihan Anda dalam daftar.
Pilih Selanjutnya.
Secara opsional, Anda dapat menambahkan gaya berbicara kustom lainnya. Jumlah maksimum gaya kustom bervariasi menurut bahasa: English (United States) memungkinkan hingga 10 gaya kustom, Chinese (Mandarin, Simplified) memungkinkan hingga empat gaya kustom, dan Japanese (Japan) memungkinkan hingga lima gaya kustom.
1. Pilih Tambahkan gaya kustom dan masukkan nama gaya kustom pilihan Anda. Nama ini digunakan oleh aplikasi Anda dalam style elemen Speech Synthesis Markup Language (SSML). Anda juga dapat menggunakan nama gaya kustom sebagai SSML dengan menggunakan alat Pembuatan Konten Audio di Speech Studio.
2. Pilih sampel gaya sebagai data pelatihan. Pastikan bahwa data pelatihan untuk gaya berbicara kustom berasal dari pembicara yang sama dengan data yang digunakan untuk membuat gaya default.
Pilih Selanjutnya.
Pilih file pembicara dengan pernyataan bakat suara yang sesuai dengan pembicara dalam data pelatihan Anda.
Pilih Selanjutnya.
Setiap pelatihan secara otomatis menghasilkan 100 file audio sampel untuk gaya default dan 20 untuk setiap gaya prasetel untuk membantu Anda menguji model dengan skrip default.

Secara opsional, Anda juga dapat memilih Tambahkan skrip pengujian saya sendiri dan menyediakan skrip pengujian Anda sendiri hingga 100 ucapan untuk menguji gaya default tanpa biaya tambahan. File audio yang dihasilkan adalah kombinasi dari skrip pengujian otomatis dan skrip pengujian kustom. Untuk informasi selengkapnya, lihat persyaratan skrip pengujian.

Masukkan Nama untuk membantu Anda mengidentifikasi model. Pilih nama dengan hati-hati. Nama model digunakan sebagai nama suara dalam permintaan sintesis ucapan Anda oleh input SDK dan SSML. Hanya huruf, angka, dan beberapa karakter tanda baca yang diizinkan. Gunakan nama yang berbeda untuk model suara neural yang berbeda.
Secara opsional, masukkan Deskripsi untuk membantu Anda mengidentifikasi model. Penggunaan umum deskripsi adalah merekam nama data yang Anda gunakan untuk membuat model.
Pilih Selanjutnya.
Tinjau pengaturan dan pilih kotak untuk menerima ketentuan penggunaan.
Pilih Kirim untuk mulai melatih model.

Pelatihan dua bahasa

Jika Anda memilih jenis pelatihan Neural , Anda dapat melatih suara untuk berbicara dalam beberapa bahasa. Lokal zh-CN, , zh-HKdan zh-TW mendukung pelatihan dua bahasa agar suara dapat berbicara bahasa Tionghoa dan Inggris. Bergantung sebagian pada data pelatihan Anda, suara yang disintesis dapat berbicara bahasa Inggris dengan aksen asli bahasa Inggris atau bahasa Inggris dengan aksen yang sama dengan data pelatihan.

Catatan

Untuk mengaktifkan suara di zh-CN lokal untuk berbicara bahasa Inggris dengan aksen yang sama dengan data sampel, Anda harus memilih Chinese (Mandarin, Simplified), English bilingual saat membuat proyek atau menentukan zh-CN (English bilingual) lokal untuk data set pelatihan melalui REST API.

Tabel berikut ini memperlihatkan perbedaan di antara lokal:

Lokal Speech Studio	Lokal REST API	Dukungan dua bahasa
`Chinese (Mandarin, Simplified)`	`zh-CN`	Jika data sampel Anda menyertakan bahasa Inggris, suara yang disintesis berbicara bahasa Inggris dengan aksen asli bahasa Inggris, alih-alih aksen yang sama dengan data sampel, terlepas dari jumlah data bahasa Inggris.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Jika Anda ingin suara yang disintesis berbicara bahasa Inggris dengan aksen yang sama dengan data sampel, sebaiknya sertakan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, aksen berbahasa Inggris mungkin tidak ideal.
`Chinese (Cantonese, Simplified)`	`zh-HK`	Jika Anda ingin melatih suara yang disintesis yang mampu berbicara bahasa Inggris dengan aksen yang sama dengan data sampel Anda, pastikan untuk memberikan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, defaultnya adalah aksen asli bahasa Inggris. Ambang batas 10% dihitung berdasarkan data yang diterima setelah berhasil diunggah, bukan data sebelum diunggah. Jika beberapa data bahasa Inggris yang diunggah ditolak karena cacat dan tidak memenuhi ambang 10%, suara yang disintesis default ke aksen asli bahasa Inggris.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Jika Anda ingin melatih suara yang disintesis yang mampu berbicara bahasa Inggris dengan aksen yang sama dengan data sampel Anda, pastikan untuk memberikan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, defaultnya adalah aksen asli bahasa Inggris. Ambang batas 10% dihitung berdasarkan data yang diterima setelah berhasil diunggah, bukan data sebelum diunggah. Jika beberapa data bahasa Inggris yang diunggah ditolak karena cacat dan tidak memenuhi ambang 10%, suara yang disintesis default ke aksen asli bahasa Inggris.

Gaya prasetel yang tersedia di berbagai bahasa

Tabel berikut ini meringkas gaya prasetel yang berbeda sesuai dengan bahasa yang berbeda.

Gaya berbicara	Bahasa (lokal)
marah	Inggris (Amerika Serikat) (`en-US`) Jepang (Jepang) (`ja-JP`) ¹ Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
tenang	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
mengobrol	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
gembira	Inggris (Amerika Serikat) (`en-US`) Jepang (Jepang) (`ja-JP`) ¹ Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
tidak puas	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
gembira	Inggris (Amerika Serikat) (`en-US`)
takut	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
ramah	Inggris (Amerika Serikat) (`en-US`)
Berharap	Inggris (Amerika Serikat) (`en-US`)
Sedih	Inggris (Amerika Serikat) (`en-US`) Jepang (Jepang) (`ja-JP`) ¹ Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
Berteriak	Inggris (Amerika Serikat) (`en-US`)
serius	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
takut	Inggris (Amerika Serikat) (`en-US`)
Ramah	Inggris (Amerika Serikat) (`en-US`)
Berbisik	Inggris (Amerika Serikat) (`en-US`)

¹ Gaya suara neural tersedia dalam pratinjau publik. Gaya dalam pratinjau publik hanya tersedia di wilayah layanan ini: US Timur, Eropa Barat, dan Asia Tenggara.

Tabel Latih model menampilkan entri baru yang sesuai dengan model yang baru dibuat ini. Status mencerminkan proses konversi data Anda ke model suara, seperti yang dijelaskan dalam tabel ini:

Provinsi	Makna
Sedang diproses	Model suara Anda sedang dibuat.
Berhasil	Model suara Anda telah dibuat dan dapat disebarkan.
Gagal	Model suara Anda telah gagal dalam pelatihan. Penyebab kegagalan mungkin, misalnya, masalah data yang tidak terlihat atau masalah jaringan.
Canceled	Pelatihan untuk model suara Anda dibatalkan.

Saat status model sedang Diproses, Anda dapat memilih Batalkan pelatihan untuk membatalkan model suara Anda. Anda tidak dikenakan biaya untuk pelatihan yang dibatalkan ini.

Cuplikan layar yang menampilkan cara membatalkan pelatihan untuk model.

Setelah berhasil melatih model, Anda dapat meninjau detail model dan Menguji model suara Anda.

Anda dapat menggunakan alat Pembuatan Konten Audio di Speech Studio untuk membuat audio dan menyempurnakan suara yang Anda sebarkan. Jika berlaku untuk suara, Anda dapat memilih salah satu dari beberapa gaya.

Mengganti nama model Anda

Jika Anda ingin mengganti nama model yang Anda buat, pilih Kloning model untuk membuat klon model dengan nama baru dalam proyek saat ini.
Masukkan nama baru di jendela Kloning model suara, lalu pilih Kirim. Teks Neural secara otomatis ditambahkan sebagai akhiran ke nama model baru Anda.

Menguji model suara Anda

Setelah model suara berhasil dibuat, Anda dapat menggunakan file audio sampel yang dihasilkan untuk mengujinya sebelum menyebarkannya.

Kualitas suara bergantung pada banyak faktor, seperti:

Ukuran pelatihan data.
Kualitas rekaman.
Keakuratan file transkrip.
Seberapa baik suara yang direkam dalam data pelatihan cocok dengan kepribadian suara yang dirancang untuk kasus penggunaan yang Anda maksudkan.

Pilih DefaultTests di bawah Pengujian untuk mendengarkan file audio sampel. Sampel pengujian default mencakup 100 sampel file audio yang dihasilkan secara otomatis selama pelatihan untuk membantu Anda menguji model. Selain 100 file audio yang disediakan secara default, ucapan skrip pengujian Anda sendiri juga ditambahkan ke set DefaultTests . Penambahan ini paling banyak 100 ucapan. Anda tidak dikenakan biaya untuk pengujian dengan DefaultTests.

Cuplikan layar pemilihan DefaultTests pada Pengujian.

Jika Anda ingin mengunggah skrip pengujian Anda sendiri untuk menguji model Anda lebih lanjut, pilih Tambahkan skrip pengujian untuk mengunggah skrip pengujian Anda sendiri.

Cuplikan layar penambahan skrip pengujian model.

Sebelum Anda mengunggah skrip pengujian, periksa persyaratan Uji skrip. Anda dikenakan biaya untuk pengujian tambahan dengan sintesis batch berdasarkan jumlah karakter yang dapat ditagih. Lihat Harga Azure AI Speech.

Di bawah Tambahkan skrip pengujian, pilih Telusuri file untuk memilih skrip Anda sendiri, lalu pilih Tambahkan untuk mengunggahnya.

Cuplikan layar pengunggahan skrip pengujian model.

Persyaratan skrip pengujian

Skrip pengujian harus berupa file .txt yang kurang dari 1 MB. Format pengodean yang didukung mencakup ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, atau UTF-16-BE.

Tidak seperti file transkripsi pelatihan, skrip pengujian harus mengecualikan ID ucapan, yang merupakan nama file dari setiap ucapan. Jika tidak, ID ini diucapkan.

Berikut adalah contoh sekumpulan ucapan dalam satu file .txt :

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Setiap paragraf hasil ungkapan akan menghasilkan audio terpisah. Jika Anda ingin menggabungkan semua kalimat dalam satu audio, buat dalam satu paragraf.

Catatan

File audio yang dihasilkan adalah kombinasi dari skrip pengujian otomatis dan skrip pengujian kustom.

Memperbarui versi mesin bagi model suara Anda

Mesin teks ke ucapan Azure diperbarui dari waktu ke waktu untuk mengambil model bahasa terbaru yang menentukan pengucapan bahasa. Setelah melatih suara, Anda dapat menerapkan suara ke model bahasa baru dengan memperbarui ke versi mesin terbaru.

Saat mesin baru tersedia, Anda akan segera diminta untuk memperbarui model suara neural Anda.
Buka halaman detail model dan ikuti petunjuk di layar untuk menginstal mesin terbaru.

Atau, pilih Instal mesin terbaru nanti untuk memperbarui model Anda ke versi mesin terbaru.

Anda tidak akan dikenakan biaya untuk pembaruan mesin. Versi sebelumnya masih akan disimpan.
Anda dapat memeriksa semua versi mesin untuk model dari daftar Versi mesin, atau menghapusnya jika Anda tidak membutuhkannya lagi.

Versi yang diperbarui secara otomatis akan diatur sebagai default. Tetapi Anda dapat mengubah versi default dengan memilih versi dari daftar drop-down dan memilih Atur sebagai default.

Jika Anda ingin menguji setiap versi mesin model suara, Anda dapat memilih versi dari daftar, lalu pilih DefaultTests di bawah Pengujian untuk mendengarkan file audio sampel. Jika Anda ingin mengunggah skrip pengujian Anda sendiri untuk menguji lebih lanjut versi mesin Anda saat ini, pertama-tama pastikan versi diatur sebagai default, lalu ikuti langkah-langkah dalam Menguji model suara Anda.

Memperbarui mesin membuat versi baru model tanpa biaya tambahan. Setelah memperbarui versi mesin untuk model suara, Anda perlu menyebarkan versi baru untuk membuat titik akhir baru. Anda hanya bisa menyebarkan versi default.

Cuplikan layar yang memperlihatkan cara menyebarkan ulang versi baru model suara Anda.

Setelah membuat titik akhir baru, Anda perlu mentransfer lalu lintas ke titik akhir baru di produk Anda.

Untuk mempelajari selengkapnya tentang kemampuan dan batas fitur ini, dan praktik terbaik untuk meningkatkan kualitas model Anda, lihat Karakteristik dan batasan untuk menggunakan suara saraf kustom.

Menyalin model suara Anda ke proyek lain

Anda dapat menyalin model suara ke proyek lain untuk wilayah yang sama atau wilayah lain. Misalnya, Anda dapat menyalin model suara neural yang dilatih di satu wilayah, ke suatu proyek untuk wilayah lain.

Catatan

Pelatihan suara neural kustom saat ini hanya tersedia di beberapa wilayah. Anda dapat menyalin model suara neural dari wilayah tersebut ke wilayah lain. Untuk informasi selengkapnya, lihat wilayah untuk suara neural kustom.

Untuk menyalin model suara neural kustom Anda ke proyek lain:

Di tab Latih model, pilih model suara yang ingin disalin, lalu pilih Salin ke proyek.
Pilih Langganan, Wilayah, Sumber daya Ucapan, dan Proyek tempat Anda ingin menyalin model. Anda harus memiliki sumber daya ucapan dan proyek di wilayah target, jika tidak, Anda perlu membuatnya terlebih dahulu.
Pilih Kirim untuk menyalin model tersebut.
Pilih Tampilkan model di bawah pesan pemberitahuan untuk penyalinan yang berhasil.

Navigasikan ke proyek tempat Anda menyalin model untuk menyebarkan salinan model.

Langkah berikutnya

Menyebarkan titik akhir suara profesional

Dalam artikel ini, Anda mempelajari cara melatih suara neural kustom melalui API suara kustom.

Penting

Catatan

Pilih metode pelatihan

Neural: Buat suara dalam bahasa yang sama dengan data pelatihan Anda.
Neural - bahasa silang: Buat suara yang berbicara bahasa yang berbeda dari data pelatihan Anda. Misalnya, dengan fr-FR data pelatihan, Anda dapat membuat suara yang berbicara en-US.

Bahasa data pelatihan dan bahasa target keduanya harus menjadi salah satu bahasa yang didukung untuk pelatihan suara lintas bahasa. Anda tidak perlu menyiapkan data pelatihan dalam bahasa target, tetapi skrip pengujian Anda harus dalam bahasa target.
Neural - multi gaya: Buat suara saraf kustom yang berbicara dalam beberapa gaya dan emosi, tanpa menambahkan data pelatihan baru. Beberapa suara gaya berguna untuk karakter video game, chatbot percakapan, buku audio, pembaca konten, dan banyak lagi.

Untuk membuat suara beberapa gaya, Anda perlu menyiapkan sekumpulan data pelatihan umum, setidaknya 300 ucapan. Pilih satu atau beberapa gaya berbicara target prasetel. Anda juga dapat membuat beberapa gaya kustom dengan menyediakan sampel gaya, setidaknya 100 ucapan per gaya, sebagai data pelatihan tambahan untuk suara yang sama. Gaya prasetel yang didukung bervariasi sesuai dengan bahasa yang berbeda. Lihat gaya prasetel yang tersedia di berbagai bahasa.

Bahasa data pelatihan harus menjadi salah satu bahasa yang didukung untuk suara saraf kustom, lintas bahasa, atau pelatihan gaya ganda.

Membuat model suara

Untuk membuat suara saraf, gunakan operasi Models_Create API suara kustom. Buat isi permintaan sesuai dengan instruksi berikut:

Atur properti projectId yang diperlukan. Lihat membuat proyek.
Atur properti consentId yang diperlukan. Lihat menambahkan persetujuan bakat suara.
Atur properti trainingSetId yang diperlukan. Lihat membuat set pelatihan.
Atur properti resep kind yang diperlukan ke Default untuk pelatihan suara saraf. Jenis resep menunjukkan metode pelatihan dan tidak dapat diubah nanti. Untuk menggunakan metode pelatihan yang berbeda, lihat Neural - bahasa silang atau Neural - multi gaya. Lihat Pelatihan dua bahasa untuk informasi selengkapnya tentang pelatihan dua bahasa dan perbedaan antara lokal.
Atur properti voiceName yang diperlukan. Nama suara harus diakhir dengan "Neural" dan tidak dapat diubah nanti. Pilih nama dengan hati-hati. Nama suara digunakan dalam permintaan sintesis ucapan Anda oleh input SDK dan SSML. Hanya huruf, angka, dan beberapa karakter tanda baca yang diizinkan. Gunakan nama yang berbeda untuk model suara neural yang berbeda.
Secara opsional, atur description properti untuk deskripsi suara. Deskripsi suara dapat diubah nanti.

Buat permintaan HTTP PUT menggunakan URI seperti yang ditunjukkan dalam contoh Models_Create berikut.

Ganti YourResourceKey dengan kunci sumber daya Ucapan Anda.
Ganti YourResourceRegion dengan wilayah sumber daya Ucapan Anda.
Ganti JessicaModelId dengan ID model pilihan Anda. ID peka huruf besar/kecil akan digunakan dalam URI model dan tidak dapat diubah nanti.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Anda akan menerima isi respons dalam format berikut:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Untuk membuat suara neural lintas bahasa, gunakan operasi Models_Create API suara kustom. Buat isi permintaan sesuai dengan instruksi berikut:

Atur properti projectId yang diperlukan. Lihat membuat proyek.
Atur properti consentId yang diperlukan. Lihat menambahkan persetujuan bakat suara.
Atur properti trainingSetId yang diperlukan. Lihat membuat set pelatihan.
Atur properti resep kind yang diperlukan ke CrossLingual untuk pelatihan suara lintas bahasa. Jenis resep menunjukkan metode pelatihan dan tidak dapat diubah nanti. Untuk menggunakan metode pelatihan yang berbeda, lihat Neural atau Neural - multi gaya.
Atur properti voiceName yang diperlukan. Nama suara harus diakhir dengan "Neural" dan tidak dapat diubah nanti. Pilih nama dengan hati-hati. Nama suara digunakan dalam permintaan sintesis ucapan Anda oleh input SDK dan SSML. Hanya huruf, angka, dan beberapa karakter tanda baca yang diizinkan. Gunakan nama yang berbeda untuk model suara neural yang berbeda.
Atur properti yang diperlukan locale untuk bahasa yang diucapkan suara Anda. Suara berbicara bahasa yang berbeda dari data pelatihan Anda. Anda hanya dapat menentukan satu bahasa target untuk model suara.
Secara opsional, atur description properti untuk deskripsi suara. Deskripsi suara dapat diubah nanti.

Buat permintaan HTTP PUT menggunakan URI seperti yang ditunjukkan dalam contoh Models_Create berikut.

Ganti YourResourceKey dengan kunci sumber daya Ucapan Anda.
Ganti YourResourceRegion dengan wilayah sumber daya Ucapan Anda.
Ganti JessicaModelId dengan ID model pilihan Anda. ID peka huruf besar/kecil akan digunakan dalam URI model dan tidak dapat diubah nanti.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaCrossLingualNeural",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Anda akan menerima isi respons dalam format berikut:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralCrossLingual",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual",
    "version": "V5.2023.07"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR",
  "engineVersion": "2023.11.14.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Untuk membuat suara saraf multi-gaya, gunakan operasi Models_Create API suara kustom. Buat isi permintaan sesuai dengan instruksi berikut:

Atur properti projectId yang diperlukan. Lihat membuat proyek.
Atur properti consentId yang diperlukan. Lihat menambahkan persetujuan bakat suara.
Atur properti trainingSetId yang diperlukan. Lihat membuat set pelatihan.
Atur properti resep kind yang diperlukan ke MultiStyle untuk beberapa pelatihan suara gaya. Jenis resep menunjukkan metode pelatihan dan tidak dapat diubah nanti. Untuk menggunakan metode pelatihan yang berbeda, lihat Neural atau Neural - bahasa silang.
Atur properti voiceName yang diperlukan. Nama suara harus diakhir dengan "Neural" dan tidak dapat diubah nanti. Pilih nama dengan hati-hati. Nama suara digunakan dalam permintaan sintesis ucapan Anda oleh input SDK dan SSML. Hanya huruf, angka, dan beberapa karakter tanda baca yang diizinkan. Gunakan nama yang berbeda untuk model suara neural yang berbeda.
Atur properti yang diperlukan locale untuk bahasa untuk model suara Anda.
Atur properti yang diperlukan presetStyles ke satu atau beberapa gaya prasetel yang tersedia untuk bahasa target.
Secara opsional, atur styleTrainingSetIds properti untuk menyediakan data pelatihan untuk gaya berbicara kustom Anda. Jumlah maksimum gaya kustom bervariasi menurut bahasa: Bahasa Inggris (Amerika Serikat) memungkinkan hingga 10 gaya kustom, Mandarin (Mandarin, Sederhana) memungkinkan hingga empat gaya kustom, dan Jepang (Jepang) memungkinkan hingga lima gaya kustom. Properti styleTrainingSetIds adalah kamus nama gaya dan ID set pelatihan.
- Untuk setiap kunci kamus, tentukan nama gaya kustom pilihan Anda. Nama ini digunakan oleh aplikasi Anda dalam style elemen Speech Synthesis Markup Language (SSML).
- Untuk setiap nilai kamus, tentukan ID set pelatihan yang sudah Anda buat untuk model suara yang sama. Set pelatihan harus berisi setidaknya 100 ucapan untuk setiap gaya.
Secara opsional, atur description properti untuk deskripsi suara. Deskripsi suara dapat diubah nanti.

Buat permintaan HTTP PUT menggunakan URI seperti yang ditunjukkan dalam contoh Models_Create berikut.

Ganti YourResourceKey dengan kunci sumber daya Ucapan Anda.
Ganti YourResourceRegion dengan wilayah sumber daya Ucapan Anda.
Ganti JessicaModelId dengan ID model pilihan Anda. ID peka huruf besar/kecil akan digunakan dalam URI model dan tidak dapat diubah nanti.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    }
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

Anda akan menerima isi respons dalam format berikut:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0","properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    },
    "voiceStyles": [
      "cheerful",
      "sad",
      "happyJessica",
      "myStyle2"
    ]
  }
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Pelatihan dua bahasa

Catatan

Tabel berikut ini memperlihatkan perbedaan di antara lokal:

Lokal Speech Studio	Lokal REST API	Dukungan dua bahasa
`Chinese (Mandarin, Simplified)`	`zh-CN`	Jika data sampel Anda menyertakan bahasa Inggris, suara yang disintesis berbicara bahasa Inggris dengan aksen asli bahasa Inggris, alih-alih aksen yang sama dengan data sampel, terlepas dari jumlah data bahasa Inggris.
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	Jika Anda ingin suara yang disintesis berbicara bahasa Inggris dengan aksen yang sama dengan data sampel, sebaiknya sertakan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, aksen berbahasa Inggris mungkin tidak ideal.
`Chinese (Cantonese, Simplified)`	`zh-HK`	Jika Anda ingin melatih suara yang disintesis yang mampu berbicara bahasa Inggris dengan aksen yang sama dengan data sampel Anda, pastikan untuk memberikan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, defaultnya adalah aksen asli bahasa Inggris. Ambang batas 10% dihitung berdasarkan data yang diterima setelah berhasil diunggah, bukan data sebelum diunggah. Jika beberapa data bahasa Inggris yang diunggah ditolak karena cacat dan tidak memenuhi ambang 10%, suara yang disintesis default ke aksen asli bahasa Inggris.
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	Jika Anda ingin melatih suara yang disintesis yang mampu berbicara bahasa Inggris dengan aksen yang sama dengan data sampel Anda, pastikan untuk memberikan lebih dari 10% data bahasa Inggris dalam set pelatihan Anda. Jika tidak, defaultnya adalah aksen asli bahasa Inggris. Ambang batas 10% dihitung berdasarkan data yang diterima setelah berhasil diunggah, bukan data sebelum diunggah. Jika beberapa data bahasa Inggris yang diunggah ditolak karena cacat dan tidak memenuhi ambang 10%, suara yang disintesis default ke aksen asli bahasa Inggris.

Gaya prasetel yang tersedia di berbagai bahasa

Tabel berikut ini meringkas gaya prasetel yang berbeda sesuai dengan bahasa yang berbeda.

Gaya berbicara	Bahasa (lokal)
marah	Inggris (Amerika Serikat) (`en-US`) Jepang (Jepang) (`ja-JP`) ¹ Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
tenang	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
mengobrol	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
gembira	Inggris (Amerika Serikat) (`en-US`) Jepang (Jepang) (`ja-JP`) ¹ Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
tidak puas	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
gembira	Inggris (Amerika Serikat) (`en-US`)
takut	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
ramah	Inggris (Amerika Serikat) (`en-US`)
Berharap	Inggris (Amerika Serikat) (`en-US`)
Sedih	Inggris (Amerika Serikat) (`en-US`) Jepang (Jepang) (`ja-JP`) ¹ Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
Berteriak	Inggris (Amerika Serikat) (`en-US`)
serius	Mandarin (Mandarin, Sederhana) (`zh-CN`) ¹
takut	Inggris (Amerika Serikat) (`en-US`)
Ramah	Inggris (Amerika Serikat) (`en-US`)
Berbisik	Inggris (Amerika Serikat) (`en-US`)

¹ Gaya suara neural tersedia dalam pratinjau publik. Gaya dalam pratinjau publik hanya tersedia di wilayah layanan ini: US Timur, Eropa Barat, dan Asia Tenggara.

Dapatkan status pelatihan

Untuk mendapatkan status pelatihan model suara, gunakan operasi Models_Get API suara kustom. Buat URI permintaan sesuai dengan instruksi berikut:

Buat permintaan HTTP GET menggunakan URI seperti yang ditunjukkan dalam contoh Models_Get berikut.

Ganti YourResourceKey dengan kunci sumber daya Ucapan Anda.
Ganti YourResourceRegion dengan wilayah sumber daya Ucapan Anda.
Ganti JessicaModelId jika Anda menentukan ID model yang berbeda di langkah sebelumnya.

curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Anda harus menerima isi respons dalam format berikut.

Catatan

Resep kind dan properti lainnya tergantung pada cara Anda melatih suara. Dalam contoh ini, jenis resep adalah Default untuk pelatihan suara saraf.

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Anda mungkin perlu menunggu beberapa menit sebelum pelatihan selesai. Akhirnya status akan berubah menjadi atau Succeeded Failed.

Langkah berikutnya

Menyebarkan titik akhir suara profesional

Bagikan melalui

Melatih model suara profesional Anda

Pilih metode pelatihan

Melatih model suara neural kustom Anda

Pelatihan dua bahasa

Gaya prasetel yang tersedia di berbagai bahasa

Mengganti nama model Anda

Menguji model suara Anda

Persyaratan skrip pengujian

Memperbarui versi mesin bagi model suara Anda

Menyalin model suara Anda ke proyek lain

Langkah berikutnya

Pilih metode pelatihan

Membuat model suara

Pelatihan dua bahasa

Gaya prasetel yang tersedia di berbagai bahasa

Dapatkan status pelatihan

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan: