Q: Apakah ada pemetaan antara ID Viseme dan bentuk mulut?

Ya. Lihat Mendapatkan posisi wajah dengan viseme .

Question 1

Bagaimana cara kerja penagihan untuk teks ke ucapan?

Accepted Answer

Penggunaan teks ke ucapan ditagih per karakter. Periksa definisi karakter yang dapat ditagih dalam catatan harga.

Question 2

Berapa batas tarif untuk permintaan sintesis teks ke ucapan?

Accepted Answer

Tingkat sintesis teks ke ucapan diskalakan secara otomatis karena menerima lebih banyak permintaan. Batas tarif default diatur per sumber daya ucapan. Tarif dapat disesuaikan dengan pembenaran bisnis dan tidak ada biaya tambahan yang dikeluarkan untuk kenaikan batas tarif. Periksa detail selengkapnya dalam kuota dan batas layanan Ucapan.

Question 3

Bagaimana kami akan mengungkapkan kepada pengguna akhir bahwa suara tersebut adalah suara sintetis?

Accepted Answer

Kami menyarankan agar setiap pengguna harus mengikuti kode etik kami saat menggunakan kemampuan teks ke ucapan. Ada beberapa cara untuk mengungkapkan sifat sintetis suara termasuk byline implisit dan eksplisit. Lihat Panduan desain pengungkapan.

Question 4

Bagaimana cara mengurangi latensi untuk aplikasi suara saya?

Accepted Answer

Kami memberikan beberapa tips bagi Anda untuk menurunkan latensi dan memberikan performa terbaik kepada pengguna Anda. Lihat Latensi sintesis ucapan yang lebih rendah menggunakan Speech SDK.

Question 5

Format audio output apa yang didukung teks ke ucapan?

Accepted Answer

Teks ke ucapan Azure AI mendukung berbagai format audio streaming dan non-streaming, dengan laju pengambilan sampel yang umum digunakan. Semua suara standar TTS dibuat untuk mendukung output audio dengan keakuratan tinggi dengan 48 kHz dan 24 kHz. Audio dapat di-resamping untuk mendukung tarif lain sesuai kebutuhan. Lihat Output audio.

Question 6

Dapatkah suara disesuaikan untuk menekankan kata-kata tertentu?

Accepted Answer

Menyesuaikan penekanan didukung untuk beberapa suara tergantung pada lokal. Lihat tag penekanan.

Question 7

Dapatkah kita memiliki beberapa kekuatan untuk setiap emosi, seperti sedih, sedikit sedih, dan sebagainya, masuk?

Accepted Answer

Menyesuaikan derajat gaya didukung untuk beberapa suara tergantung pada lokal. Lihat tag mstts:express-as.

Question 8

Apakah ada pemetaan antara ID Viseme dan bentuk mulut?

Accepted Answer

Ya. Lihat Mendapatkan posisi wajah dengan viseme.

Question 9

Bagaimana cara mereferensikan file leksikon yang saya buat di platform Pembuatan Konten Audio dalam kode saya?

Accepted Answer

Pertama, Anda dapat membuka file leksikon pada Pembuatan Konten Audio dan mendapatkan ID file leksikon, yang terletak di depan "?fileKind=CustomLexiconFile" di jalur file. Misalnya, jika jalur file adalah https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile, ID file leksikon adalah 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c. Kemudian, alihkan file yang mereferensikan leksikon ini ke format SSML pada Pembuatan Konten Audio. Dalam file SSML, temukan

Question 10

Berapa banyak data yang diperlukan untuk penyempurnaan suara profesional?

Accepted Answer

Anda memerlukan data pelatihan setidaknya 300 baris rekaman (atau sekitar 30 menit ucapan) untuk penyempurnaan suara profesional. Kami merekomendasikan 2.000 baris rekaman (atau sekitar 2-3 jam ucapan) untuk membuat suara untuk penggunaan produksi. Untuk kriteria pemilihan skrip, lihat Merekam sampel suara kustom.

Question 11

Dapatkah kita menyertakan kalimat teks duplikat dalam kumpulan data pelatihan yang sama?

Accepted Answer

Tidak. Layanan ini akan menandai kalimat duplikat dan hanya menyimpan kalimat pertama yang diimpor. Untuk kriteria pemilihan skrip, lihat Merekam sampel suara kustom.

Question 12

Bisakah kita menyertakan beberapa gaya dalam kumpulan data pelatihan yang sama?

Accepted Answer

Kami menyarankan agar Anda menjaga gaya tetap konsisten dalam satu set data pelatihan. Jika gayanya berbeda, masukkan ke dalam set pelatihan yang berbeda. Dalam hal ini, pertimbangkan untuk menggunakan metode pelatihan multi-gaya dari penyempurnaan suara profesional. Untuk kriteria pemilihan skrip, lihat Merekam sampel suara kustom.

Question 13

Apakah beralih gaya melalui SSML berfungsi untuk suara kustom?

Accepted Answer

Beralih gaya melalui SSML berfungsi untuk suara standar multi-gaya dan suara kustom multi-gaya. Dengan pelatihan multi-gaya, Anda dapat membuat suara yang berbicara dalam gaya yang berbeda, dan Anda juga dapat menyesuaikan gaya ini melalui SSML.

Question 14

Bagaimana cara kerja suara lintas bahasa dengan bahasa yang memiliki struktur dan perakitan pengucapan yang berbeda?

Accepted Answer

Struktur kalimat dan pengucapan secara alami bervariasi di seluruh bahasa seperti bahasa Inggris dan Jepang. Setiap suara saraf dilatih dengan data audio yang direkam oleh bakat suara berbicara asli. Untuk suara lintas bahasa , kami mentransfer fitur utama seperti timbre agar terdengar seperti speaker asli dan mempertahankan pengucapan yang tepat. Misalnya, suara lintas bahasa menggunakan cara asli untuk berbicara bahasa Jepang dan masih terdengar mirip (tetapi tidak persis) seperti penutur asli bahasa Inggris.

Question 15

Dapatkah saya menggunakan penyempurnaan suara profesional untuk menyesuaikan pengucapan untuk domain saya?

Accepted Answer

Penyempurnaan suara profesional memungkinkan Anda membuat suara merek untuk bisnis Anda. Anda juga dapat mengoptimalkannya untuk domain Anda. Kami sarankan Anda menyertakan sampel khusus domain dalam data pelatihan Anda untuk kewajaran yang lebih tinggi. Namun, pengucapan ditentukan oleh layanan Ucapan secara default. Kami tidak mendukung penyesuaian pengucapan dengan penyempurnaan suara profesional. Jika Anda ingin menyesuaikan pengucapan untuk suara Anda, gunakan SSML. Lihat Pengucapan dengan Speech Synthesis Markup Language (SSML).

Question 16

Setelah satu pelatihan, dapatkah saya melatih suara saya lagi?

Accepted Answer

Kau bisa berlatih lagi. Setiap pelatihan membuat model suara baru. Anda dikenakan biaya untuk setiap pelatihan.

Question 17

Apakah versi model sama dengan versi mesin?

Accepted Answer

Tidak. Versi model berbeda dari versi mesin. Versi model berarti versi resep pelatihan untuk model Anda dan bervariasi menurut fitur yang didukung dan waktu pelatihan model. Layanan Azure AI teks ke mesin ucapan diperbarui dari waktu ke waktu untuk mengambil model bahasa terbaru yang menentukan pengucapan bahasa. Setelah melatih suara, Anda bisa menerapkan suara ke model bahasa baru dengan cara memperbarui ke versi mesin terbaru. Saat mesin baru tersedia, Anda akan segera diminta untuk memperbarui model suara neural Anda. Lihat Memperbarui versi mesin untuk model suara Anda.

Question 18

Bisakah kita membatasi jumlah pelatihan menggunakan Azure Policy atau fitur lainnya? Atau apakah ada cara untuk menghindari pelatihan palsu?

Accepted Answer

Jika Anda ingin membatasi izin pelatihan, Anda dapat membatasi peran dan akses pengguna. Lihat Kontrol akses berbasis peran untuk sumber daya Ucapan.

Question 19

Dapatkah Microsoft menambahkan mekanisme untuk mencegah penggunaan atau penyalahgunaan suara kami yang tidak sah saat dibuat?

Accepted Answer

Model suara hanya dapat digunakan sendiri menggunakan token Anda sendiri. Microsoft juga tidak menggunakan data Anda. Lihat Data, privasi, dan keamanan. Anda juga dapat meminta untuk menambahkan marka air ke suara Anda untuk melindungi model Anda. Lihat Microsoft Azure Neural TTS memperkenalkan algoritma marka air untuk identifikasi suara sintetis.

Question 20

Apakah Anda memiliki tips tentang kontrak atau negosiasi dengan aktor suara?

Accepted Answer

Kami tidak memiliki rekomendasi tentang kontrak dan terserah pelanggan dan bakat suara untuk menegosiasikan persyaratan. Namun, Anda harus memastikan bakat suara memahami kemampuan teks ke ucapan, termasuk potensi risikonya, dan memberikan persetujuan eksplisit untuk membuat versi sintetis suara mereka dalam kontrak dan pernyataan verbal. Lihat Pengungkapan untuk bakat suara.

Question 21

Apakah kita perlu mengembalikan izin tertulis dari talenta suara kembali ke Microsoft?

Accepted Answer

Microsoft tidak memerlukan izin tertulis, tetapi Anda harus mendapatkan persetujuan dari bakat suara Anda. Bakat suara juga akan diperlukan untuk merekam pernyataan persetujuan dan harus diunggah ke Speech Studio sebelum pelatihan dapat dimulai. Lihat Menyiapkan bakat suara untuk penyempurnaan suara profesional.

Bagikan melalui

Umum

Bagaimana cara kerja penagihan untuk teks ke ucapan?

Berapa batas tarif untuk permintaan sintesis teks ke ucapan?

Bagaimana kami akan mengungkapkan kepada pengguna akhir bahwa suara tersebut adalah suara sintetis?

Bagaimana cara mengurangi latensi untuk aplikasi suara saya?

Format audio output apa yang didukung teks ke ucapan?

Dapatkah suara disesuaikan untuk menekankan kata-kata tertentu?

Dapatkah kita memiliki beberapa kekuatan untuk setiap emosi, seperti sedih, sedikit sedih, dan sebagainya, masuk?

Apakah ada pemetaan antara ID Viseme dan bentuk mulut?

Pembuatan Konten Audio

Bagaimana cara mereferensikan file leksikon yang saya buat di platform Pembuatan Konten Audio dalam kode saya?

Penyempurnaan suara profesional

Berapa banyak data yang diperlukan untuk penyempurnaan suara profesional?

Dapatkah kita menyertakan kalimat teks duplikat dalam kumpulan data pelatihan yang sama?

Bisakah kita menyertakan beberapa gaya dalam kumpulan data pelatihan yang sama?

Apakah beralih gaya melalui SSML berfungsi untuk suara kustom?

Bagaimana cara kerja suara lintas bahasa dengan bahasa yang memiliki struktur dan perakitan pengucapan yang berbeda?

Dapatkah saya menggunakan penyempurnaan suara profesional untuk menyesuaikan pengucapan untuk domain saya?

Setelah satu pelatihan, dapatkah saya melatih suara saya lagi?

Apakah versi model sama dengan versi mesin?

Bisakah kita membatasi jumlah pelatihan menggunakan Azure Policy atau fitur lainnya? Atau apakah ada cara untuk menghindari pelatihan palsu?

Dapatkah Microsoft menambahkan mekanisme untuk mencegah penggunaan atau penyalahgunaan suara kami yang tidak sah saat dibuat?

Apakah Anda memiliki tips tentang kontrak atau negosiasi dengan aktor suara?

Apakah kita perlu mengembalikan izin tertulis dari talenta suara kembali ke Microsoft?

Langkah berikutnya

Bagikan melalui

Tanya Jawab Umum teks ke ucapan

Umum

Bagaimana cara kerja penagihan untuk teks ke ucapan?

Berapa batas tarif untuk permintaan sintesis teks ke ucapan?

Bagaimana kami akan mengungkapkan kepada pengguna akhir bahwa suara tersebut adalah suara sintetis?

Bagaimana cara mengurangi latensi untuk aplikasi suara saya?

Format audio output apa yang didukung teks ke ucapan?

Dapatkah suara disesuaikan untuk menekankan kata-kata tertentu?

Dapatkah kita memiliki beberapa kekuatan untuk setiap emosi, seperti sedih, sedikit sedih, dan sebagainya, masuk?

Apakah ada pemetaan antara ID Viseme dan bentuk mulut?

Pembuatan Konten Audio

Bagaimana cara mereferensikan file leksikon yang saya buat di platform Pembuatan Konten Audio dalam kode saya?

Penyempurnaan suara profesional

Berapa banyak data yang diperlukan untuk penyempurnaan suara profesional?

Dapatkah kita menyertakan kalimat teks duplikat dalam kumpulan data pelatihan yang sama?

Bisakah kita menyertakan beberapa gaya dalam kumpulan data pelatihan yang sama?

Apakah beralih gaya melalui SSML berfungsi untuk suara kustom?

Bagaimana cara kerja suara lintas bahasa dengan bahasa yang memiliki struktur dan perakitan pengucapan yang berbeda?

Dapatkah saya menggunakan penyempurnaan suara profesional untuk menyesuaikan pengucapan untuk domain saya?

Setelah satu pelatihan, dapatkah saya melatih suara saya lagi?

Apakah versi model sama dengan versi mesin?

Bisakah kita membatasi jumlah pelatihan menggunakan Azure Policy atau fitur lainnya? Atau apakah ada cara untuk menghindari pelatihan palsu?

Dapatkah Microsoft menambahkan mekanisme untuk mencegah penggunaan atau penyalahgunaan suara kami yang tidak sah saat dibuat?

Apakah Anda memiliki tips tentang kontrak atau negosiasi dengan aktor suara?

Apakah kita perlu mengembalikan izin tertulis dari talenta suara kembali ke Microsoft?

Langkah berikutnya

Saran dan Komentar

Sumber Daya Tambahan: