Gambaran umum avatar teks ke ucapan

2025-06-02

Avatar teks ke ucapan mengonversi teks menjadi video digital manusia fotorealistik (baik avatar standar atau avatar teks ke ucapan kustom) yang berbicara dengan suara yang terdengar alami. Video avatar teks ke ucapan dapat disintesis secara asinkron atau secara real time. Pengembang dapat membangun aplikasi yang terintegrasi dengan avatar teks ke ucapan melalui API, atau menggunakan alat pembuatan konten di Speech Studio untuk membuat konten video tanpa pengkodian.

Dengan model jaringan neural canggih avatar teks ke ucapan, fitur ini memberdayakan pengguna untuk memberikan video avatar yang berbicara sintetis seperti hidup dan berkualitas tinggi untuk berbagai aplikasi sambil mematuhi praktik AI yang bertanggung jawab.

Petunjuk / Saran

Untuk mengonversi teks ke ucapan dengan pendekatan tanpa kode, coba alat avatar Teks ke ucapan di Speech Studio.

Kemampuan Avatar

Kemampuan avatar teks ke ucapan meliputi:

Mengonversi teks menjadi video digital dari manusia fotorealistik yang berbicara dengan suara yang terdengar alami yang didukung oleh teks Azure AI ke ucapan.
Menyediakan kumpulan avatar standar.
Azure AI teks ke suara memproduksi suara avatar. Untuk informasi selengkapnya, lihat Suara dan bahasa Avatar.
Mensintesis teks ke video avatar ucapan secara asinkron dengan API sintesis batch atau secara real time.
Menyediakan alat pembuatan konten di Speech Studio untuk membuat konten video tanpa pengkodan.
Memungkinkan percakapan avatar real time melalui alat avatar obrolan langsung di Speech Studio.

Dengan model jaringan neural canggih avatar teks ke ucapan, fitur ini memberdayakan Anda untuk memberikan video avatar yang berbicara sintetis dan berkualitas tinggi untuk berbagai aplikasi sambil mematuhi praktik AI yang bertanggung jawab.

Suara dan bahasa Avatar

Anda dapat memilih dari berbagai suara standar untuk avatar. Dukungan bahasa untuk avatar teks ke ucapan sama dengan dukungan bahasa untuk teks ke ucapan. Untuk detailnya, lihat Dukungan bahasa dan suara untuk layanan Ucapan. Avatar teks ke ucapan standar dapat diakses melalui portal Speech Studio atau melalui API.

Suara dalam video sintetis bisa menjadi suara standar Azure AI Speech atau suara kustom bakat suara yang Dipilih oleh Anda.

Output video Avatar

Sintesis batch dan resolusi sintesis real time adalah 1920 x 1080, dan bingkai per detik (FPS) adalah 25. Codec sintesis batch dapat berupa h264, hevc, atau av1 jika formatnya adalah mp4 dan dapat mengatur codec sebagai vp9 atau av1 jika formatnya adalah webm; hanya vp9 dapat berisi saluran alfa. Kodek sintesis real time adalah h264. Laju bit video dapat dikonfigurasi untuk sintesis batch dan sintesis real-time dalam permintaan; nilai defaultnya adalah 2000000; Konfigurasi yang lebih rinci dapat ditemukan dalam kode sampel.

	Sintesis batch	Sintesis real time
Resolusi	1920 x 1080	1920 x 1080
FPS	Dua puluh lima	Dua puluh lima
Codec	h264/hevc/vp9/av1	h264

Avatar teks kustom ke ucapan

Anda dapat membuat teks kustom ke avatar ucapan yang unik untuk produk atau merek Anda. Yang diperlukan untuk memulai adalah mengambil 10 menit rekaman video. Jika Anda sedang menyempurnakan suara profesional untuk seorang aktor, avatar tersebut bisa menjadi sangat realistis.

Sinkronisasi suara untuk avatar dilatih bersama avatar kustom yang menggunakan audio dari video pelatihan. Suara secara eksklusif dikaitkan dengan avatar kustom dan tidak dapat digunakan secara independen.

Penyempurnaan suara profesional dan teks kustom ke avatar ucapan adalah fitur terpisah. Anda dapat menggunakannya secara independen atau bersama-sama. Jika Anda berencana untuk juga menggunakan penyempurnaan suara profesional dengan avatar teks ke ucapan, Anda perlu menyebarkan atau menyalin model suara profesional yang disempurnakan ke salah satu wilayah yang didukung avatar.

Untuk informasi selengkapnya, lihat Apa itu teks kustom ke avatar ucapan.

Kode Sampel

Kode sampel untuk avatar teks ke ucapan tersedia di GitHub. Sampel ini mencakup skenario paling populer:

Sintesis batch (REST)
Sintesis real time (SDK)
Obrolan langsung dengan Azure OpenAI di belakang (SDK)
Untuk membuat APLIKASI obrolan langsung dengan Azure OpenAI On Your Data, Anda dapat merujuk ke kode sampel ini (cari "Di Data Anda")

Harga

Sepanjang sesi real-time avatar atau pembuatan konten batch, teks ke ucapan, ucapan ke teks, Azure OpenAI, atau layanan Azure lainnya dibebankan secara terpisah.
Sinkronisasi suara untuk avatar (melalui pelatihan avatar kustom) memiliki biaya yang sama dengan suara pribadi dalam hal pembuatan dan sintesis suara. Penyimpanan suara gratis.
Lihat catatan harga avatar teks ke ucapan untuk mempelajari cara kerja penagihan untuk fitur avatar teks ke ucapan.
Untuk harga terperinci, lihat Harga layanan Ucapan. Perhatikan bahwa harga avatar hanya akan terlihat untuk wilayah layanan tempat fitur tersedia, termasuk Asia Tenggara, Eropa Utara, Eropa Barat, Swedia Tengah, AS Tengah Selatan, US Timur 2, dan US Barat 2.

Lokasi yang tersedia

Fitur avatar teks ke ucapan hanya tersedia di wilayah layanan berikut: Asia Tenggara, Eropa Utara, Eropa Barat, Swedia Tengah, US Tengah Selatan, US Timur 2, dan AS Barat 2.

AI yang Bertanggung Jawab

Kami peduli dengan orang-orang yang menggunakan AI dan orang-orang yang akan terpengaruh olehnya sebanyak kami peduli dengan teknologi. Untuk informasi selengkapnya, lihat Catatan transparansi dan pengungkapan AI yang bertanggung jawab untuk talenta suara dan avatar.