Properti sintesis batch untuk avatar teks ke ucapan (pratinjau)

Artikel
04/19/2024

Catatan

Avatar teks ke ucapan saat ini dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Properti sintesis batch dapat dikelompokkan sebagai: properti terkait avatar, properti terkait pekerjaan batch, dan properti terkait teks ke ucapan, yang dijelaskan dalam tabel berikut.

Beberapa properti dalam format JSON diperlukan saat Anda membuat pekerjaan sintesis batch baru. Properti lain bersifat opsional. Respons sintesis batch mencakup properti lain untuk memberikan informasi tentang status dan hasil sintesis. Misalnya, outputs.result properti berisi lokasi tempat Anda dapat mengunduh file video yang berisi video avatar. Dari outputs.summary, Anda dapat mengakses ringkasan dan detail debug.

Properti Avatar

Tabel berikut ini menjelaskan properti avatar.

Properti	Deskripsi
avatarConfig.talkingAvatarCharacter	Nama karakter avatar yang berbicara. Karakter avatar yang didukung dapat ditemukan di sini. Properti ini diperlukan.
avatarConfig.talkingAvatarStyle	Nama gaya avatar yang berbicara. Gaya avatar yang didukung dapat ditemukan di sini. Properti ini diperlukan untuk avatar bawaan, dan opsional untuk avatar yang disesuaikan.
avatarConfig.customized	Nilai bool yang menunjukkan apakah avatar yang akan digunakan disesuaikan avatar atau tidak. True untuk avatar yang disesuaikan, dan false untuk avatar bawaan. Properti ini bersifat opsional, dan nilai defaultnya adalah `false`.
avatarConfig.videoFormat	Format untuk file video output, bisa mp4 atau webm. `webm` Format diperlukan untuk latar belakang transparan. Properti ini bersifat opsional, dan nilai defaultnya adalah mp4.
avatarConfig.videoCodec	Codec untuk video output, bisa berupa h264, hevc atau vp9. Vp9 diperlukan untuk latar belakang transparan. Kecepatan sintesis akan lebih lambat dengan codec vp9, karena pengodean vp9 lebih lambat. Properti ini bersifat opsional, dan nilai defaultnya adalah hevc.
avatarConfig.bitrateKbps	Laju bit untuk video output, yang merupakan nilai bilangan bulat, dengan unit kbps. Properti ini bersifat opsional, dan nilai defaultnya adalah 2000.
avatarConfig.videoCrop	Properti ini memungkinkan Anda untuk memangkas output video, yang berarti, untuk menghasilkan subarea persegi panjang dari video asli. Properti ini memiliki dua bidang, yang menentukan puncak kiri atas dan puncak kanan bawah persegi panjang. Properti ini bersifat opsional, dan perilaku defaultnya adalah menghasilkan video lengkap.
avatarConfig.videoCrop.topLeft	Puncak kiri atas persegi panjang untuk pemangkasan video. Properti ini memiliki dua bidang x dan y, untuk menentukan posisi horizontal dan vertikal vertex. Properti ini diperlukan ketika properties.videoCrop diatur.
avatarConfig.videoCrop.bottomRight	Verteks kanan bawah persegi panjang untuk pemangkasan video. Properti ini memiliki dua bidang x dan y, untuk menentukan posisi horizontal dan vertikal vertex. Properti ini diperlukan ketika properties.videoCrop diatur.
avatarConfig.subtitleType	Jenis subtitel untuk file video avatar bisa berupa `external_file`, , `soft_embeddedhard_embedded`, atau `none`. Properti ini bersifat opsional, dan nilai defaultnya adalah `soft_embedded`.
avatarConfig.backgroundImage	Tambahkan gambar latar belakang menggunakan `avatarConfig.backgroundImage` properti . Nilai properti harus berupa URL yang menunjuk ke gambar yang diinginkan. Properti ini bersifat opsional.
avatarConfig.backgroundColor	Warna latar belakang video avatar, yang merupakan string dalam format #RRGGBBAA. Dalam string ini: RR, GG, BB dan AA berarti saluran merah, hijau, biru, dan alfa, dengan rentang nilai heksadesimal 00 ~FF. Saluran Alfa mengontrol transparansi, dengan nilai 00 untuk transparan, nilai FF untuk non-transparan, dan nilai antara 00 dan FF untuk semi transparan. Properti ini bersifat opsional, dan nilai defaultnya adalah #FFFFFFFF (putih).
outputs.result	Lokasi file hasil sintesis batch, yang merupakan file video yang berisi avatar yang disintesis. Properti ini bersifat hanya baca.
Properti. DurationInMilliseconds	Durasi output video dalam milidetik. Properti ini bersifat hanya baca.

Properti pekerjaan sintesis batch

Tabel berikut ini menjelaskan properti pekerjaan sintesis batch.

Properti	Deskripsi
createdDateTime	Tanggal dan waktu ketika pekerjaan sintesis batch dibuat. Properti ini bersifat hanya baca.
description	Penjabaran dari sintesis batch. Properti ini bersifat opsional.
ID	ID pekerjaan sintesis batch. Properti ini bersifat hanya baca.
lastActionDateTime	Tanggal dan waktu terbaru saat nilai properti status berubah. Properti ini bersifat hanya baca.
properti	Sekumpulan pengaturan konfigurasi sintesis batch opsional yang ditentukan.
properties.destinationContainerUrl	Hasil sintesis batch dapat disimpan dalam kontainer Azure yang dapat ditulis. Jika Anda tidak menentukan URI kontainer dengan token tanda tangan akses bersama (SAS), layanan Ucapan menyimpan hasilnya dalam kontainer yang dikelola oleh Microsoft. SAS dengan kebijakan akses tersimpan tidak didukung. Ketika pekerjaan sintesis dihapus, data hasil juga dihapus. Properti opsional ini tidak disertakan dalam respons saat Anda mendapatkan pekerjaan sintesis.
properties.timeToLiveInHours	Durasi dalam jam setelah pekerjaan sintesis dibuat, ketika hasil sintesis akan dihapus secara otomatis. Waktu maksimum untuk hidup adalah 744 jam. Tanggal dan waktu penghapusan otomatis, untuk pekerjaan sintesis dengan status "Berhasil" atau "Gagal" dihitung sebagai jumlah properti lastActionDateTime dan timeToLive. Jika tidak, Anda dapat memanggil metode sintesis penghapusan untuk menghapus pekerjaan lebih cepat.
status	Status pemrosesan sintesis batch. Status harus berkembang dari "NotStarted" ke "Running", dan akhirnya menjadi "Berhasil" atau "Failed". Properti ini bersifat hanya baca.

Properti teks ke ucapan

Tabel berikut ini menjelaskan properti teks ke ucapan.

Properti	Deskripsi
customVoices	Suara neural kustom dikaitkan dengan nama dan ID penyebarannya, seperti ini: "customVoices": {"your-custom-voice-name": "502ac834-6537-4bc3-9fd6-140114daa66d"} Anda dapat menggunakan nama suara di `synthesisConfig.voice` saat `inputKind` diatur ke "PlainText", atau dalam teks input SSML saat `inputKind` diatur ke "SSML". Properti ini diperlukan untuk menggunakan suara kustom. Jika Anda mencoba menggunakan suara kustom yang tidak ditentukan di sini, layanan akan mengembalikan kesalahan.
input	Teks biasa atau SSML yang akan disintesis. Ketika inputKind diatur ke "PlainText", berikan teks biasa seperti yang ditunjukkan di sini: "input": [{"content": "Pelangi memiliki tujuh warna."}]. Ketika inputKind diatur ke "SSML", berikan teks dalam Speech Synthesis Markup Language (SSML) seperti yang ditunjukkan di sini: "input": [{"content": "<speak version=''1.0''' xml:lang=='en-US''><voice xml:lang='en-US''' xml:gender='Female''' name=''en-US-AvaMultilingualNeural'''>Pelangi memiliki tujuh warna."}]. Sertakan hingga 1.000 objek teks jika Anda menginginkan beberapa file output video. Berikut adalah contoh teks input yang harus disintesis ke dua file output video: "input": [{"content": "synthesize this to a file"},{"content": "synthesize this to another file"}]. Anda tidak memerlukan input teks terpisah untuk paragraf baru. Dalam salah satu input teks (hingga 1.000), Anda dapat menentukan paragraf baru menggunakan string "\r\n" (baris baru). Berikut adalah contoh teks input dengan dua paragraf yang harus disintesis ke file output audio yang sama: "input": [{"content": "synthesize ini ke file\r\nsynthesize ini ke paragraf lain dalam file yang sama"}] Properti ini diperlukan saat Anda membuat pekerjaan sintesis batch baru. Properti ini tidak disertakan dalam respons saat Anda mendapatkan pekerjaan sintesis.
properties.billingDetails	Jumlah kata yang diproses dan ditagih oleh suara customNeural versus neural (bawaan). Properti ini bersifat hanya baca.
synthesisConfig	Pengaturan konfigurasi yang digunakan untuk sintesis batch teks biasa. Properti ini hanya berlaku ketika inputKind diatur ke "PlainText".
synthesisConfig.pitch	Nada output audio. Untuk informasi tentang nilai yang diterima, lihat tabel sesuaikan prosody dalam dokumentasi Speech Synthesis Markup Language (SSML). Nilai yang tidak valid diabaikan. Properti opsional ini hanya berlaku ketika inputKind diatur ke "PlainText".
synthesisConfig.rate	Laju output audio. Untuk informasi tentang nilai yang diterima, lihat tabel sesuaikan prosody dalam dokumentasi Speech Synthesis Markup Language (SSML). Nilai yang tidak valid diabaikan. Properti opsional ini hanya berlaku ketika inputKind diatur ke "PlainText".
synthesisConfig.style	Untuk beberapa suara, Anda dapat menyesuaikan gaya berbicara untuk mengekspresikan emosi yang berbeda seperti keceriaan, empati, dan ketenangan. Anda dapat mengoptimalkan suara untuk skenario yang berbeda seperti layanan pelanggan, siaran berita, dan asisten suara. Untuk informasi tentang gaya yang tersedia per suara, lihat gaya dan peran suara. Properti opsional ini hanya berlaku ketika inputKind diatur ke "PlainText".
synthesisConfig.voice	Suara yang berbicara output audio. Untuk informasi tentang suara saraf bawaan yang tersedia, lihat dukungan bahasa dan suara. Untuk menggunakan suara kustom, Anda harus menentukan pemetaan SUARA kustom dan ID penyebaran yang valid di properti customVoices. Properti ini diperlukan ketika inputKind diatur ke "PlainText".
synthesisConfig.volume	Volume output audio. Untuk informasi tentang nilai yang diterima, lihat tabel sesuaikan prosody dalam dokumentasi Speech Synthesis Markup Language (SSML). Nilai yang tidak valid diabaikan. Properti opsional ini hanya berlaku ketika inputKind diatur ke "PlainText".
inputKind	Menunjukkan apakah properti teks input harus berupa teks biasa atau SSML. Nilai yang mungkin tidak peka huruf besar/kecil adalah "PlainText" dan "SSML". Ketika inputKind diatur ke "PlainText", Anda juga harus mengatur properti suara synthesisConfig. Properti ini diperlukan.

Cara mengedit latar belakang

API sintesis batch avatar saat ini tidak mendukung pengaturan video latar belakang; ini hanya mendukung gambar latar belakang statis. Namun, jika Anda ingin menambahkan latar belakang untuk video Anda selama pasca-produksi, Anda dapat membuat video dengan latar belakang transparan.

Untuk mengatur gambar latar belakang statis, gunakan avatarConfig.backgroundImage properti dan tentukan URL yang menunjuk ke gambar yang diinginkan. Selain itu, Anda dapat mengatur warna latar belakang video avatar menggunakan avatarConfig.backgroundColor properti .

Untuk menghasilkan video latar belakang transparan, Anda harus mengatur properti berikut ke nilai yang diperlukan dalam permintaan sintesis batch:

Properti	Nilai yang diperlukan untuk transparansi latar belakang
properties.videoFormat	webm
properties.videoCodec	vp9
properties.backgroundColor	#00000000 (atau transparan)

Clipchamp adalah salah satu contoh alat pengeditan video yang mendukung video latar belakang transparan yang dihasilkan oleh API sintesis batch.

Beberapa perangkat lunak pengeditan video tidak mendukung format secara webm langsung dan hanya mendukung .mov format input video latar belakang transparan seperti Adobe Premiere Pro. Dalam kasus seperti itu, Anda harus terlebih dahulu mengonversi format video dari webm ke .mov dengan alat seperti FFMPEG.

Baris perintah FFMPEG:

ffmpeg -vcodec libvpx-vp9 -i <input.webm> -vcodec png -pix_fmt rgba metadata:s:v:0 alpha_mode="1" <output.mov>

FFMPEG dapat diunduh dari ffmpeg.org. Ganti <input.webm> dan <output.mov> dengan jalur lokal dan nama file Anda di baris perintah.

Share via

Properti sintesis batch untuk avatar teks ke ucapan (pratinjau)

Properti Avatar

Properti pekerjaan sintesis batch

Properti teks ke ucapan

Cara mengedit latar belakang

Langkah berikutnya

Sumber Daya Tambahan: