Apa itu teks OpenAI ke suara ucapan?

2025-02-25

Seperti suara Azure AI Speech, suara teks ke ucapan OpenAI memberikan sintesis ucapan berkualitas tinggi untuk mengonversi teks tertulis menjadi audio lisan yang terdengar alami. Ini membuka berbagai kemungkinan untuk pengalaman pengguna yang imersif dan interaktif.

Teks OpenAI ke suara ucapan tersedia melalui dua varian model: Neural dan NeuralHD.

Neural: Dioptimalkan untuk kasus penggunaan real time dengan latensi terendah, tetapi kualitasnya lebih rendah daripada NeuralHD.
NeuralHD: Dioptimalkan untuk kualitas.

Teks yang tersedia untuk suara ucapan di layanan Azure AI

Anda mungkin bertanya: Jika saya ingin menggunakan teks OpenAI untuk suara ucapan, haruskah saya menggunakannya melalui Azure OpenAI di Azure AI Foundry Models atau melalui Azure AI Speech? Apa skenario yang memandu saya untuk menggunakan satu atau yang lain?

Setiap model suara menawarkan fitur dan kemampuan yang berbeda, memungkinkan Anda memilih salah satu yang paling sesuai dengan kebutuhan spesifik Anda. Anda ingin memahami opsi dan perbedaan antara suara teks ke ucapan yang tersedia di layanan Azure AI.

Anda dapat memilih dari teks berikut ke suara ucapan di layanan Azure AI:

Teks OpenAI ke suara ucapan di Azure OpenAI. Tersedia di wilayah berikut: US Tengah Utara dan Swedia Tengah.
Teks OpenAI ke suara ucapan di Azure AI Speech. Tersedia di wilayah berikut: US Tengah Utara dan Swedia Tengah.
Teks layanan Ucapan Azure AI ke suara ucapan. Tersedia di puluhan wilayah. Lihat daftar wilayah.

Suara teks OpenAI melalui Azure OpenAI atau melalui Azure AI Speech?

Jika Anda ingin menggunakan teks OpenAI untuk suara ucapan, Anda dapat memilih apakah akan menggunakannya melalui Azure OpenAI atau melalui Azure AI Speech. Anda dapat mengunjungi Galeri Suara untuk mendengarkan sampel suara Azure OpenAI atau mensintesis ucapan dengan teks Anda sendiri menggunakan Pembuatan Konten Audio. Output audio identik dalam kedua kasus, dengan hanya beberapa perbedaan fitur antara kedua layanan. Lihat tabel di bawah ini untuk detailnya.

Berikut adalah perbandingan fitur antara teks OpenAI dengan suara ucapan di Azure OpenAI dan teks OpenAI dengan suara ucapan di Azure AI Speech.

Fitur	Azure OpenAI (pengenalan suara OpenAI)	Azure AI Speech (suara OpenAI)	Suara Azure AI Speech
Wilayah	US Tengah Utara, Swedia Tengah	US Tengah Utara, Swedia Tengah	Tersedia di puluhan wilayah. Lihat daftar wilayah.
Variasi suara	6	12	Lebih dari 500
Nomor suara multibahasa	6	12	49
Cakupan bahasa multibahasa maks	57	57	77
Dukungan Speech Synthesis Markup Language (SSML)	Tidak didukung	Dukungan untuk subset elemen SSML.	Dukungan untuk set lengkap SSML di Azure AI Speech.
Opsi pengembangan	REST API	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API
Opsi penyebaran	Hanya cloud	Hanya cloud	Cloud, tersemat, hibrid, dan kontainer.
Sintesis real time atau batch	Real time	Real time	Sintesis real time dan batch
Latensi	lebih besar dari 500 mdtk	lebih besar dari 500 mdtk	kurang dari 300 mdtk
Laju sampel audio yang disintesis	24 kHz	8, 16, 24, dan 48 kHz	8, 16, 24, dan 48 kHz
Format audio output ucapan	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Ada fitur dan kemampuan tambahan yang tersedia di Azure AI Speech yang tidak tersedia dengan suara OpenAI. Contohnya:

Teks OpenAI ke suara ucapan di Azure AI Speech hanya mendukung subset elemen SSML. Suara Azure AI Speech mendukung set lengkap elemen SSML.
Azure AI Speech mendukung peristiwa batas kata. Suara OpenAI tidak mendukung peristiwa batas kata.

Teks OpenAI yang tersedia untuk suara ucapan

Suara OpenAI yang tersedia di Azure OpenAI adalah:

alloy
echo
fable
onyx
nova
shimmer

Suara OpenAI yang tersedia di Azure AI Speech adalah:

en-US-AlloyMultilingualNeural
en-US-EchoMultilingualNeural
en-US-FableMultilingualNeural
en-US-OnyxMultilingualNeural
en-US-NovaMultilingualNeural
en-US-ShimmerMultilingualNeural
en-US-AlloyMultilingualNeuralHD
en-US-EchoMultilingualNeuralHD
en-US-FableMultilingualNeuralHD
en-US-OnyxMultilingualNeuralHD
en-US-NovaMultilingualNeuralHD
en-US-ShimmerMultilingualNeuralHD

Elemen SSML yang didukung oleh teks OpenAI ke suara ucapan di Azure AI Speech

Speech Synthesis Markup Language (SSML) dengan teks input menentukan struktur, konten, dan karakteristik teks ke output ucapan lainnya. Misalnya, Anda dapat menggunakan SSML untuk menentukan paragraf, kalimat, jeda atau jeda, atau keheningan. Anda dapat membungkus teks dengan tag peristiwa seperti bookmark atau viseme yang dapat diproses nanti oleh aplikasi Anda.

Tabel berikut menguraikan elemen Speech Synthesis Markup Language (SSML) yang didukung oleh teks OpenAI ke suara ucapan dalam ucapan Azure AI. Hanya subset tag SSML berikut yang didukung untuk suara OpenAI. Lihat struktur dan peristiwa dokumen SSML untuk informasi selengkapnya.

Nama elemen SSML	Deskripsi
`<speak>`	Menyertakan seluruh konten yang akan diucapkan. Ini adalah elemen akar dari dokumen SSML.
`<voice>`	Menentukan suara yang digunakan untuk output teks ke ucapan.
`<sub>`	Menunjukkan bahwa nilai teks atribut alias harus diucapkan alih-alih teks terlampir elemen.
`<say-as>`	Menunjukkan jenis konten, seperti angka atau tanggal, teks elemen. `interpret-as` Semua nilai properti didukung untuk elemen ini kecuali `interpret-as="name"`. Misalnya, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` didukung, tetapi `<say-as interpret-as="name">ED</say-as>` tidak didukung. Untuk informasi selengkapnya, lihat pengucapan dengan SSML.
`<s>`	Menunjukkan kalimat.
`<lang>`	Menunjukkan lokal default untuk bahasa yang Anda inginkan untuk diucapkan suara neural.
`<break>`	Gunakan untuk mengambil alih perilaku default jeda atau jeda antar kata.

Bagikan melalui

Apa itu teks OpenAI ke suara ucapan?

Teks yang tersedia untuk suara ucapan di layanan Azure AI

Suara teks OpenAI melalui Azure OpenAI atau melalui Azure AI Speech?

Teks OpenAI yang tersedia untuk suara ucapan

Elemen SSML yang didukung oleh teks OpenAI ke suara ucapan di Azure AI Speech

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: