Apa itu avatar teks kustom ke ucapan?

2025-06-02

Avatar teks ke ucapan kustom memungkinkan Anda membuat avatar bicara sintetis yang disesuaikan dan unik untuk aplikasi Anda. Dengan avatar teks ke ucapan kustom, Anda dapat membangun avatar unik dan terlihat alami untuk produk atau merek Anda dengan menyediakan data perekaman video dari aktor yang Anda pilih. Avatar bahkan lebih realistis jika Anda juga menggunakan suara profesional atau sinkronisasi suara untuk avatar untuk aktor yang sama.

Penting

Akses avatar teks ke ucapan kustom dibatasi berdasarkan kriteria kelayakan dan penggunaan. Minta akses pada formulir intake.

Bagaimana cara kerjanya?

Membuat teks kustom ke avatar ucapan memerlukan setidaknya 10 menit perekaman video bakat avatar sebagai data pelatihan, dan Anda harus terlebih dahulu mendapatkan persetujuan dari bakat aktor.

Model avatar kustom dapat mendukung:

Pembuatan video melalui API sintesis batch.
Obrolan langsung melalui API sintesis streaming.

Sebelum Anda memulai, berikut adalah beberapa pertimbangan:

Kasus penggunaan Anda: Apakah Anda akan menggunakan avatar untuk membuat konten video seperti materi pelatihan, pengenalan produk, atau menggunakan avatar sebagai salesperson virtual dalam percakapan real-time dengan pelanggan Anda? Ada beberapa persyaratan perekaman untuk kasus penggunaan yang berbeda.

Tampilan avatar: Avatar teks kustom ke ucapan terlihat sama dengan bakat avatar dalam data pelatihan, dan kami tidak mendukung penyesuaian tampilan model avatar, seperti pakaian, gaya rambut, dll. Jadi jika aplikasi Anda memerlukan beberapa gaya avatar yang sama, Anda harus menyiapkan data pelatihan untuk setiap gaya, karena setiap gaya avatar dianggap sebagai model avatar tunggal.

Suara avatar: Avatar teks ke ucapan kustom dapat bekerja dengan suara standar, suara profesional, dan sinkronisasi suara untuk avatar.

Sinkronisasi suara untuk avatar: Suara sintetis yang menyerupai suara bakat avatar dilatih bersama avatar kustom yang menggunakan audio dari video pelatihan.
Suara profesional: Menyempurnakan suara profesional dengan lebih banyak data pelatihan, memberikan pengalaman suara premium untuk avatar Anda, termasuk percakapan alami, multi-gaya, dan dukungan multibahasa.

Berikut adalah gambaran umum langkah-langkah untuk membuat teks kustom ke avatar ucapan:

Dapatkan video persetujuan. Dapatkan rekaman video dari bakat membaca pernyataan persetujuan. Mereka harus memberikan persetujuan untuk penggunaan data gambar dan suara mereka guna melatih model avatar teks ke ucapan kustom serta menghasilkan versi sintetis dari suara mereka.
Siapkan data pelatihan. Pastikan bahwa perekaman video dalam format yang tepat. Sebaiknya rekam video di studio pemotretan video berkualitas profesional untuk mendapatkan gambar latar belakang yang bersih. Kualitas avatar yang dihasilkan sangat tergantung pada video yang direkam yang digunakan untuk pelatihan. Faktor-faktor seperti tingkat bicara, postur tubuh, ekspresi wajah, gerakan tangan, konsistensi dalam posisi aktor, dan pencahayaan rekaman video sangat penting untuk membuat teks kustom yang menarik ke avatar ucapan. Lihat cara menyiapkan data pelatihan untuk detail selengkapnya.
Latih model avatar. Setelah data siap, unggah data Anda ke portal avatar kustom dan mulai latih model Anda. Verifikasi persetujuan dilakukan selama pelatihan. Pastikan Anda memiliki akses ke fitur teks kustom ke avatar ucapan sebelum Anda dapat membuat proyek.
Sebarkan dan gunakan model avatar Anda di aplikasi Anda.

Urutan komponen

Model avatar teks ke ucapan kustom berisi tiga komponen: penganalisis teks, synthesizer audio teks ke ucapan, dan perender video avatar teks ke ucapan.

Untuk menghasilkan file video avatar atau streaming dengan model avatar, teks adalah input pertama ke dalam penganalisis teks, yang menyediakan output dalam bentuk urutan fonem.
Penyintesis mensintesis audio ucapan untuk teks input, dan kedua bagian ini disediakan oleh model suara standar atau kustom.
Terakhir, model avatar teks ke ucapan memprediksi gambar sinkronisasi bibir dengan audio ucapan, sehingga video sintetis dihasilkan.

Model avatar teks ke ucapan dilatih menggunakan jaringan neural mendalam berdasarkan sampel rekaman video manusia dalam berbagai bahasa. Semua bahasa suara standar dan suara kustom dapat didukung.

Lokasi yang tersedia

Pelatihan avatar kustom hanya tersedia di wilayah layanan berikut: Asia Tenggara, Eropa Barat, dan US Barat 2. Anda dapat menggunakan model avatar kustom di wilayah layanan berikut: Asia Tenggara, Eropa Utara, Eropa Barat, Swedia Tengah, US Tengah Selatan, US Timur 2, dan AS Barat 2.

Suara kustom dan teks kustom ke avatar ucapan

Suara kustom dan avatar teks ke ucapan kustom adalah fitur terpisah. Anda dapat menggunakannya secara independen atau bersama-sama. Jika Anda juga membuat suara profesional untuk aktor, avatar bisa sangat realistis.

Avatar teks ke ucapan kustom dapat bekerja dengan suara standar atau suara kustom sebagai suara avatar. Untuk informasi selengkapnya, lihat Suara dan bahasa Avatar.

Ada dua jenis suara kustom untuk avatar kustom:

Sinkronisasi suara untuk avatar: Saat Anda mengaktifkan sinkronisasi suara untuk opsi avatar selama pelatihan avatar kustom, model suara sintetis menggunakan kesamaan bakat avatar secara bersamaan dilatih dengan avatar. Suara ini secara eksklusif dikaitkan dengan avatar kustom dan tidak dapat digunakan secara independen. Sinkronisasi suara untuk avatar saat ini didukung di wilayah Asia Tenggara, Eropa Barat, dan US Barat 2.
Suara profesional: Anda dapat menyempurnakan suara profesional. Penyempurnaan suara profesional dan avatar text-to-speech kustom adalah fitur terpisah. Anda dapat menggunakannya secara independen atau bersama-sama. Jika Anda memilih untuk menggunakannya bersama-sama, Anda perlu mengajukan penyempurnaan suara profesional dan teks kustom ke avatar ucapan secara terpisah, dan Anda dikenakan biaya terpisah untuk penyempurnaan suara profesional dan teks kustom ke avatar ucapan. Untuk informasi lebih lanjut, lihat halaman harga. Selain itu, jika Anda berencana untuk menggunakan penyempurnaan suara profesional dengan avatar teks ke ucapan, Anda perlu menyebarkan atau menyalin model suara kustom Anda ke salah satu wilayah yang didukung avatar.

Jika Anda menyempurnakan suara profesional dan ingin menggunakannya bersama dengan avatar kustom, perhatikan poin-poin berikut:

Pastikan bahwa titik akhir suara kustom dibuat di sumber daya Azure AI Foundry yang sama dengan titik akhir avatar kustom. Sesuai kebutuhan, lihat melatih model suara profesional Anda untuk menyalin model suara kustom ke sumber daya Azure AI Foundry yang sama dengan titik akhir avatar kustom.
Anda dapat melihat opsi suara kustom di daftar suara halaman pembuatan konten avatar dan pengaturan suara obrolan langsung.
Jika Anda menggunakan sintesis batch untuk API avatar, tambahkan "customVoices" properti untuk mengaitkan ID penyebaran model suara kustom dengan nama suara dalam permintaan. Untuk informasi selengkapnya, lihat properti teks ke ucapan.
Jika Anda menggunakan sintesis real-time untuk API avatar, lihat kode sampel kami di GitHub untuk mengatur suara kustom.

Bagikan melalui

Apa itu avatar teks kustom ke ucapan?

Bagaimana cara kerjanya?

Urutan komponen

Lokasi yang tersedia

Suara kustom dan teks kustom ke avatar ucapan

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: