Menggunakan suara pribadi (pratinjau) di aplikasi Anda

Artikel
03/10/2024

Catatan

Suara pribadi untuk teks ke ucapan saat ini dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Anda dapat menggunakan ID profil pembicara untuk suara pribadi Anda untuk mensintesis ucapan dalam salah satu dari 91 bahasa yang didukung di 100+ lokal. Tag lokal tidak diperlukan. Suara pribadi menggunakan deteksi bahasa otomatis pada tingkat kalimat.

Mengintegrasikan suara pribadi dalam aplikasi Anda

Anda perlu menggunakan bahasa markup sintesis ucapan (SSML) untuk menggunakan suara pribadi dalam aplikasi Anda. SSML adalah bahasa markup berbasis XML yang menyediakan cara standar untuk menandai teks untuk pembuatan ucapan sintetis. Tag SSML digunakan untuk mengontrol pengucapan, volume, nada, laju, dan atribut lain dari output sintesis ucapan.

Properti speakerProfileId di SSML digunakan untuk menentukan ID profil pembicara untuk suara pribadi.
Nama suara ditentukan dalam name properti di SSML. Untuk suara pribadi, nama suara harus menjadi salah satu nama suara model dasar yang didukung. Untuk mendapatkan daftar nama suara model dasar yang didukung, gunakan operasi BaseModels_List API suara kustom.

Catatan

Nama suara berlabel Latest, seperti DragonLatestNeural atau PhoenixLatestNeural, akan diperbarui dari waktu ke waktu; performanya dapat bervariasi dengan pembaruan untuk peningkatan yang sedang berlangsung. Jika Anda ingin menggunakan versi tetap, pilih versi berlabel dengan nomor versi, seperti PhoenixV2Neural.
DragonLatestNeural adalah model dasar dengan kesamaan kloning suara yang unggul dibandingkan PhoenixLatestNeuraldengan . PhoenixLatestNeural adalah model dasar dengan pengucapan yang lebih akurat dan latensi yang lebih rendah daripada DragonLatestNeural.
Dragon model tidak mendukung <lang xml:lang> elemen di SSML.

Berikut adalah contoh SSML dalam permintaan teks ke ucapan dengan nama suara dan ID profil pembicara.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起，我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak>

Anda dapat menggunakan SSML melalui Speech SDK atau REST API.

Sintesis ucapan real time: Gunakan Speech SDK atau REST API untuk mengonversi teks menjadi ucapan.
- Saat Anda menggunakan Speech SDK, jangan atur Id Titik Akhir, seperti suara bawaan.
- Saat Anda menggunakan REST API, gunakan titik akhir suara neural bawaan.

Dokumentasi rujukan

Dokumentasi referensi REST API suara kustom

Langkah berikutnya

Pelajari selengkapnya tentang suara neural kustom di gambaran umum.
Pelajari selengkapnya tentang Speech Studio di gambaran umum.

Share via

Menggunakan suara pribadi (pratinjau) di aplikasi Anda

Mengintegrasikan suara pribadi dalam aplikasi Anda

Dokumentasi rujukan

Langkah berikutnya

Sumber Daya Tambahan: