Apa itu avatar teks kustom ke ucapan? (pratinjau)

Catatan

Avatar teks ke ucapan saat ini dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Avatar teks ke ucapan kustom memungkinkan Anda membuat avatar bicara sintetis yang disesuaikan dan unik untuk aplikasi Anda. Dengan avatar teks ke ucapan kustom, Anda dapat membangun avatar unik dan terlihat alami untuk produk atau merek Anda dengan menyediakan data perekaman video dari aktor yang Anda pilih. Jika Anda juga membuat suara saraf kustom untuk aktor yang sama dan menggunakannya sebagai suara avatar, avatar akan lebih realistis.

Penting

Akses avatar teks ke ucapan kustom dibatasi berdasarkan kriteria kelayakan dan penggunaan. Minta akses pada formulir intake.

Bagaimana cara kerjanya?

Membuat teks kustom ke avatar ucapan memerlukan setidaknya 10 menit perekaman video bakat avatar sebagai data pelatihan, dan Anda harus terlebih dahulu mendapatkan persetujuan dari bakat aktor.

Penting

Saat ini untuk teks kustom ke avatar ucapan, pemrosesan data dan pelatihan model dilakukan secara manual.

Sebelum Anda memulai, berikut adalah beberapa pertimbangan:

Kasus penggunaan Anda: Apakah Anda akan menggunakan avatar untuk membuat konten video seperti materi pelatihan, pengenalan produk, atau menggunakan avatar sebagai salesperson virtual dalam percakapan real-time dengan pelanggan Anda? Ada beberapa persyaratan perekaman untuk kasus penggunaan yang berbeda.

Tampilan avatar: Avatar teks kustom ke ucapan terlihat sama dengan bakat avatar dalam data pelatihan, dan kami tidak mendukung penyesuaian tampilan model avatar, seperti pakaian, gaya rambut, dll. Jadi jika aplikasi Anda memerlukan beberapa gaya avatar yang sama, Anda harus menyiapkan data pelatihan untuk setiap gaya, karena setiap gaya avatar akan dianggap sebagai model avatar tunggal.

Suara avatar: Avatar teks kustom ke ucapan dapat bekerja dengan suara saraf bawaan dan suara saraf kustom. Menciptakan suara saraf kustom untuk bakat avatar dan menggunakannya dengan avatar akan secara signifikan meningkatkan kealamian pengalaman avatar.

Berikut adalah gambaran umum langkah-langkah untuk membuat teks kustom ke avatar ucapan:

  1. Dapatkan video persetujuan: Dapatkan rekaman video pernyataan persetujuan. Pernyataan persetujuan adalah rekaman video dari bakat avatar membaca pernyataan, memberikan persetujuan untuk penggunaan gambar dan data suara mereka untuk melatih teks kustom ke model avatar ucapan.

  2. Menyiapkan data pelatihan: Pastikan bahwa perekaman video dalam format yang tepat. Sebaiknya rekam video di studio pemotretan video berkualitas profesional untuk mendapatkan gambar latar belakang yang bersih. Kualitas avatar yang dihasilkan sangat tergantung pada video yang direkam yang digunakan untuk pelatihan. Faktor-faktor seperti tingkat bicara, postur tubuh, ekspresi wajah, gerakan tangan, konsistensi dalam posisi aktor, dan pencahayaan rekaman video sangat penting untuk membuat teks kustom yang menarik ke avatar ucapan.

  3. Melatih model avatar: Kami akan mulai melatih teks kustom ke model ucapan setelah memverifikasi pernyataan persetujuan talenta avatar. Pada tahap pratinjau layanan ini, langkah ini akan dilakukan secara manual oleh Microsoft. Anda akan diberi tahu setelah model berhasil dilatih.

  4. Menyebarkan dan menggunakan model avatar Anda di APP Anda

Urutan komponen

Model avatar teks ke ucapan kustom berisi tiga komponen: penganalisis teks, synthesizer audio teks ke ucapan, dan perender video avatar teks ke ucapan.

  • Untuk menghasilkan file video avatar atau streaming dengan model avatar, teks adalah input pertama ke dalam penganalisis teks, yang menyediakan output dalam bentuk urutan fonem.
  • Penyintesis audio mensintesis audio ucapan untuk teks input, dan kedua bagian ini disediakan oleh teks ke ucapan atau model suara saraf kustom.
  • Terakhir, teks neural ke model avatar ucapan memprediksi gambar sinkronisasi bibir dengan audio ucapan, sehingga video sintetis dihasilkan.

Screenshot of displaying an overview of the custom text to speech avatar workflow.

Model avatar teks neural ke ucapan dilatih menggunakan jaringan neural mendalam berdasarkan sampel rekaman video manusia dalam berbagai bahasa. Semua bahasa suara bawaan dan suara saraf kustom dapat didukung.

Suara kustom dan teks kustom ke avatar ucapan

Avatar teks ke ucapan kustom dapat bekerja dengan suara saraf bawaan atau suara neural kustom sebagai suara avatar. Untuk informasi selengkapnya, lihat Suara dan bahasa Avatar.

Suara saraf kustom dan teks kustom ke avatar ucapan adalah fitur terpisah. Anda dapat menggunakannya secara independen atau bersama-sama. Jika Anda berencana untuk juga menggunakan suara saraf kustom dengan avatar teks ke ucapan, Anda perlu menyebarkan atau menyalin model suara neural kustom Anda ke salah satu wilayah yang didukung avatar.

Langkah berikutnya