Gambaran umum avatar teks ke ucapan (pratinjau)

Catatan

Avatar teks ke ucapan saat ini dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Avatar teks ke ucapan mengonversi teks menjadi video digital manusia fotorealistik (baik avatar bawaan atau teks kustom ke avatar ucapan) yang berbicara dengan suara yang terdengar alami. Video avatar teks ke ucapan dapat disintesis secara asinkron atau secara real time. Pengembang dapat membangun aplikasi yang terintegrasi dengan avatar teks ke ucapan melalui API, atau menggunakan alat pembuatan konten di Speech Studio untuk membuat konten video tanpa pengkodian.

Dengan model jaringan neural canggih avatar teks ke ucapan, fitur ini memberdayakan pengguna untuk memberikan video avatar yang berbicara sintetis seperti hidup dan berkualitas tinggi untuk berbagai aplikasi sambil mematuhi praktik AI yang bertanggung jawab.

Catatan

Fitur avatar teks ke ucapan hanya tersedia di wilayah layanan berikut: US Barat 2, Eropa Barat, dan Asia Tenggara.

Kemampuan fitur avatar teks ke ucapan Azure AI meliputi:

  • Mengonversi teks menjadi video digital dari manusia fotorealistik yang berbicara dengan suara yang terdengar alami yang didukung oleh teks Azure AI ke ucapan.
  • Menyediakan kumpulan avatar bawaan.
  • Suara avatar dihasilkan oleh teks Azure AI ke ucapan. Untuk informasi selengkapnya, lihat Suara dan bahasa Avatar.
  • Mensintesis teks ke video avatar ucapan secara asinkron dengan API sintesis batch atau secara real time.
  • Menyediakan alat pembuatan konten di Speech Studio untuk membuat konten video tanpa pengkodan.
  • Memungkinkan percakapan avatar real time melalui alat avatar obrolan langsung di Speech Studio.

Dengan model jaringan neural canggih avatar teks ke ucapan, fitur ini memberdayakan Anda untuk memberikan video avatar yang berbicara sintetis dan berkualitas tinggi untuk berbagai aplikasi sambil mematuhi praktik AI yang bertanggung jawab.

Tip

Untuk mengonversi teks ke ucapan dengan pendekatan tanpa kode, coba alat avatar Teks ke ucapan di Speech Studio.

Suara dan bahasa Avatar

Anda dapat memilih dari berbagai suara bawaan untuk avatar. Dukungan bahasa untuk avatar teks ke ucapan sama dengan dukungan bahasa untuk teks ke ucapan. Untuk detailnya, lihat Dukungan bahasa dan suara untuk layanan Ucapan. Avatar teks ke ucapan bawaan dapat diakses melalui portal Speech Studio atau melalui API.

Suara dalam video sintetis bisa menjadi suara saraf bawaan yang tersedia di Azure AI Speech atau suara neural kustom talenta suara yang dipilih oleh Anda.

Output video Avatar

Sintesis batch dan resolusi sintesis real time adalah 1920 x 1080, dan bingkai per detik (FPS) adalah 25. Codec sintesis batch dapat berupa h264 atau h265 jika formatnya adalah mp4 dan dapat mengatur codec sebagai vp9 jika formatnya adalah webm; hanya webm dapat berisi saluran alfa. Kodek sintesis real time adalah h264. Laju bit video dapat dikonfigurasi untuk sintesis batch dan sintesis real-time dalam permintaan; nilai defaultnya adalah 2000000; Konfigurasi yang lebih rinci dapat ditemukan dalam kode sampel.

Sintesis batch Sintesis Real Time
Resolusi 1920 x 1080 1920 x 1080
FPS 25 25
Codec h264/h265/vp9 h264

Avatar teks kustom ke ucapan

Anda dapat membuat teks kustom ke avatar ucapan yang unik untuk produk atau merek Anda. Yang diperlukan untuk memulai adalah mengambil 10 menit rekaman video. Jika Anda juga membuat suara saraf kustom untuk aktor, avatar bisa sangat realistis. Untuk informasi selengkapnya, lihat Apa itu teks kustom ke avatar ucapan.

Suara saraf kustom dan teks kustom ke avatar ucapan adalah fitur terpisah. Anda dapat menggunakannya secara independen atau bersama-sama. Jika Anda berencana untuk juga menggunakan suara saraf kustom dengan avatar teks ke ucapan, Anda perlu menyebarkan atau menyalin model suara neural kustom Anda ke salah satu wilayah yang didukung avatar.

Kode Sampel

Kode sampel untuk avatar teks ke ucapan tersedia di GitHub. Sampel ini mencakup skenario paling populer:

Harga

  • Saat menggunakan fitur avatar teks ke ucapan, biaya akan dikenakan berdasarkan menit output video. Namun, dengan avatar real-time, biaya didasarkan pada menit aktivasi avatar, terlepas dari apakah avatar secara aktif berbicara atau tetap diam. Untuk mengoptimalkan biaya untuk penggunaan avatar real-time, lihat tips yang disediakan dalam kode sampel (cari "Gunakan Video Lokal untuk Menganggur").
  • Sepanjang sesi real-time avatar atau pembuatan konten batch, teks ke ucapan, ucapan ke teks, Azure OpenAI, atau layanan Azure lainnya dibebankan secara terpisah.
  • Untuk informasi selengkapnya, lihat Harga layanan Azure Cognitive Service untuk Ucapan. Perhatikan bahwa harga avatar hanya akan terlihat untuk wilayah layanan tempat fitur tersedia, termasuk US Barat 2, Eropa Barat, dan Asia Tenggara.

Lokasi yang tersedia

Fitur avatar teks ke ucapan hanya tersedia di wilayah layanan berikut: US Barat 2, Eropa Barat, dan Asia Tenggara.

AI yang Bertanggung Jawab

Kami peduli dengan orang-orang yang menggunakan AI dan orang-orang yang akan terpengaruh olehnya sebanyak kami peduli dengan teknologi. Untuk informasi selengkapnya, lihat Catatan transparansi dan pengungkapan AI yang bertanggung jawab untuk talenta suara dan avatar.

Langkah berikutnya