Bagikan melalui


Tanya Jawab Umum teks ke ucapan

Artikel ini menjawab pertanyaan umum tentang kemampuan teks ke ucapan (TTS). Jika Anda tidak dapat menemukan jawaban atas pertanyaan Anda di sini, lihat opsi dukungan lainnya.

Umum

Bagaimana cara kerja penagihan untuk teks ke ucapan?

Penggunaan teks ke ucapan ditagih per karakter. Periksa definisi karakter yang dapat ditagih dalam catatan harga.

Berapa batas tarif untuk permintaan sintesis teks ke ucapan?

Tingkat sintesis teks ke ucapan diskalakan secara otomatis karena menerima lebih banyak permintaan. Batas tarif default diatur per sumber daya ucapan. Tarif dapat disesuaikan dengan pembenaran bisnis dan tidak ada biaya tambahan yang dikeluarkan untuk kenaikan batas tarif. Periksa detail selengkapnya dalam kuota dan batas layanan Ucapan.

Bagaimana kami akan mengungkapkan kepada pengguna akhir bahwa suara tersebut adalah suara sintetis?

Kami menyarankan agar setiap pengguna harus mengikuti kode etik kami saat menggunakan kemampuan teks ke ucapan. Ada beberapa cara untuk mengungkapkan sifat sintetis suara termasuk byline implisit dan eksplisit. Lihat Panduan desain pengungkapan.

Bagaimana cara mengurangi latensi untuk aplikasi suara saya?

Kami memberikan beberapa tips bagi Anda untuk menurunkan latensi dan memberikan performa terbaik kepada pengguna Anda. Lihat Latensi sintesis ucapan yang lebih rendah menggunakan Speech SDK.

Format audio output apa yang didukung teks ke ucapan?

Teks ke ucapan Azure AI mendukung berbagai format audio streaming dan non-streaming, dengan laju pengambilan sampel yang umum digunakan. Semua suara standar TTS dibuat untuk mendukung output audio dengan keakuratan tinggi dengan 48 kHz dan 24 kHz. Audio dapat di-resamping untuk mendukung tarif lain sesuai kebutuhan. Lihat Output audio.

Dapatkah suara disesuaikan untuk menekankan kata-kata tertentu?

Menyesuaikan penekanan didukung untuk beberapa suara tergantung pada lokal. Lihat tag penekanan.

Dapatkah kita memiliki beberapa kekuatan untuk setiap emosi, seperti sedih, sedikit sedih, dan sebagainya, masuk?

Menyesuaikan derajat gaya didukung untuk beberapa suara tergantung pada lokal. Lihat tag mstts:express-as.

Apakah ada pemetaan antara ID Viseme dan bentuk mulut?

Pembuatan Konten Audio

Bagaimana cara mereferensikan file leksikon yang saya buat di platform Pembuatan Konten Audio dalam kode saya?

Pertama, Anda dapat membuka file leksikon pada Pembuatan Konten Audio dan mendapatkan ID file leksikon, yang terletak di depan "?fileKind=CustomLexiconFile" di jalur file. Misalnya, jika jalur file adalah https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile, ID file leksikon adalah 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c. Kemudian, alihkan file yang mereferensikan leksikon ini ke format SSML pada Pembuatan Konten Audio. Dalam file SSML, temukan <!--ID=FCB simpul xml, di mana Anda dapat menemukan URI file leksikon berdasarkan ID file yang disebutkan. Terakhir, referensikan tautan URI file leksikon menggunakan elemen leksikon SSML dalam kode Anda. Misalnya, jika Anda menemukan simpul <!--ID=FCB5B6FB566-33CA-4B68-BEAF-B013C53B3368;Version=1|{"Files":{"6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c":{"FileKind":"CustomLexiconFile","FileSubKind":"CustomLexiconFile","Uri":"https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml"}}}XML , Anda dapat memperoleh URI https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xmlfile leksikon .

Penyempurnaan suara profesional

Berapa banyak data yang diperlukan untuk penyempurnaan suara profesional?

Anda memerlukan data pelatihan setidaknya 300 baris rekaman (atau sekitar 30 menit ucapan) untuk penyempurnaan suara profesional. Kami merekomendasikan 2.000 baris rekaman (atau sekitar 2-3 jam ucapan) untuk membuat suara untuk penggunaan produksi. Untuk kriteria pemilihan skrip, lihat Merekam sampel suara kustom.

Dapatkah kita menyertakan kalimat teks duplikat dalam kumpulan data pelatihan yang sama?

Tidak. Layanan ini akan menandai kalimat duplikat dan hanya menyimpan kalimat pertama yang diimpor. Untuk kriteria pemilihan skrip, lihat Merekam sampel suara kustom.

Bisakah kita menyertakan beberapa gaya dalam kumpulan data pelatihan yang sama?

Kami menyarankan agar Anda menjaga gaya tetap konsisten dalam satu set data pelatihan. Jika gayanya berbeda, masukkan ke dalam set pelatihan yang berbeda. Dalam hal ini, pertimbangkan untuk menggunakan metode pelatihan multi-gaya dari penyempurnaan suara profesional. Untuk kriteria pemilihan skrip, lihat Merekam sampel suara kustom.

Apakah beralih gaya melalui SSML berfungsi untuk suara kustom?

Beralih gaya melalui SSML berfungsi untuk suara standar multi-gaya dan suara kustom multi-gaya. Dengan pelatihan multi-gaya, Anda dapat membuat suara yang berbicara dalam gaya yang berbeda, dan Anda juga dapat menyesuaikan gaya ini melalui SSML.

Bagaimana cara kerja suara lintas bahasa dengan bahasa yang memiliki struktur dan perakitan pengucapan yang berbeda?

Struktur kalimat dan pengucapan secara alami bervariasi di seluruh bahasa seperti bahasa Inggris dan Jepang. Setiap suara saraf dilatih dengan data audio yang direkam oleh bakat suara berbicara asli. Untuk suara lintas bahasa , kami mentransfer fitur utama seperti timbre agar terdengar seperti speaker asli dan mempertahankan pengucapan yang tepat. Misalnya, suara lintas bahasa menggunakan cara asli untuk berbicara bahasa Jepang dan masih terdengar mirip (tetapi tidak persis) seperti penutur asli bahasa Inggris.

Dapatkah saya menggunakan penyempurnaan suara profesional untuk menyesuaikan pengucapan untuk domain saya?

Penyempurnaan suara profesional memungkinkan Anda membuat suara merek untuk bisnis Anda. Anda juga dapat mengoptimalkannya untuk domain Anda. Kami sarankan Anda menyertakan sampel khusus domain dalam data pelatihan Anda untuk kewajaran yang lebih tinggi. Namun, pengucapan ditentukan oleh layanan Ucapan secara default. Kami tidak mendukung penyesuaian pengucapan dengan penyempurnaan suara profesional. Jika Anda ingin menyesuaikan pengucapan untuk suara Anda, gunakan SSML. Lihat Pengucapan dengan Speech Synthesis Markup Language (SSML).

Setelah satu pelatihan, dapatkah saya melatih suara saya lagi?

Kau bisa berlatih lagi. Setiap pelatihan membuat model suara baru. Anda dikenakan biaya untuk setiap pelatihan.

Apakah versi model sama dengan versi mesin?

Tidak. Versi model berbeda dari versi mesin. Versi model berarti versi resep pelatihan untuk model Anda dan bervariasi menurut fitur yang didukung dan waktu pelatihan model. Layanan Azure AI teks ke mesin ucapan diperbarui dari waktu ke waktu untuk mengambil model bahasa terbaru yang menentukan pengucapan bahasa. Setelah melatih suara, Anda bisa menerapkan suara ke model bahasa baru dengan cara memperbarui ke versi mesin terbaru. Saat mesin baru tersedia, Anda akan segera diminta untuk memperbarui model suara neural Anda. Lihat Memperbarui versi mesin untuk model suara Anda.

Bisakah kita membatasi jumlah pelatihan menggunakan Azure Policy atau fitur lainnya? Atau apakah ada cara untuk menghindari pelatihan palsu?

Jika Anda ingin membatasi izin pelatihan, Anda dapat membatasi peran dan akses pengguna. Lihat Kontrol akses berbasis peran untuk sumber daya Ucapan.

Dapatkah Microsoft menambahkan mekanisme untuk mencegah penggunaan atau penyalahgunaan suara kami yang tidak sah saat dibuat?

Model suara hanya dapat digunakan sendiri menggunakan token Anda sendiri. Microsoft juga tidak menggunakan data Anda. Lihat Data, privasi, dan keamanan. Anda juga dapat meminta untuk menambahkan marka air ke suara Anda untuk melindungi model Anda. Lihat Microsoft Azure Neural TTS memperkenalkan algoritma marka air untuk identifikasi suara sintetis.

Apakah Anda memiliki tips tentang kontrak atau negosiasi dengan aktor suara?

Kami tidak memiliki rekomendasi tentang kontrak dan terserah pelanggan dan bakat suara untuk menegosiasikan persyaratan. Namun, Anda harus memastikan bakat suara memahami kemampuan teks ke ucapan, termasuk potensi risikonya, dan memberikan persetujuan eksplisit untuk membuat versi sintetis suara mereka dalam kontrak dan pernyataan verbal. Lihat Pengungkapan untuk bakat suara.

Apakah kita perlu mengembalikan izin tertulis dari talenta suara kembali ke Microsoft?

Microsoft tidak memerlukan izin tertulis, tetapi Anda harus mendapatkan persetujuan dari bakat suara Anda. Bakat suara juga akan diperlukan untuk merekam pernyataan persetujuan dan harus diunggah ke Speech Studio sebelum pelatihan dapat dimulai. Lihat Menyiapkan bakat suara untuk penyempurnaan suara profesional.