Bagikan melalui


Apa itu teks OpenAI ke suara ucapan?

Seperti suara Azure AI Speech, suara teks ke ucapan OpenAI memberikan sintesis ucapan berkualitas tinggi untuk mengonversi teks tertulis menjadi audio lisan yang terdengar alami. Ini membuka berbagai kemungkinan untuk pengalaman pengguna yang imersif dan interaktif.

Teks OpenAI ke suara ucapan tersedia melalui dua varian model: Neural dan NeuralHD.

  • Neural: Dioptimalkan untuk kasus penggunaan real time dengan latensi terendah, tetapi kualitasnya lebih rendah daripada NeuralHD.
  • NeuralHD: Dioptimalkan untuk kualitas.

Untuk demonstrasi suara OpenAI di Azure OpenAI Studio dan Speech Studio, lihat video pengantar ini.

Teks yang tersedia untuk suara ucapan di layanan Azure AI

Anda mungkin bertanya: Jika saya ingin menggunakan teks OpenAI untuk suara ucapan, haruskah saya menggunakannya melalui Layanan Azure OpenAI atau melalui Azure AI Speech? Apa skenario yang memandu saya untuk menggunakan satu atau yang lain?

Setiap model suara menawarkan fitur dan kemampuan yang berbeda, memungkinkan Anda memilih salah satu yang paling sesuai dengan kebutuhan spesifik Anda. Anda ingin memahami opsi dan perbedaan antara suara teks ke ucapan yang tersedia di layanan Azure AI.

Anda dapat memilih dari teks berikut ke suara ucapan di layanan Azure AI:

Teks OpenAI ke suara ucapan melalui Azure OpenAI Service atau melalui Azure AI Speech?

Jika Anda ingin menggunakan teks OpenAI untuk suara ucapan, Anda dapat memilih apakah akan menggunakannya melalui Azure OpenAI atau melalui Azure AI Speech. Dalam kedua kasus, hasil sintesis ucapan sama.

Berikut adalah perbandingan fitur antara teks OpenAI dengan suara ucapan di Azure OpenAI Service dan teks OpenAI dengan suara ucapan di Azure AI Speech.

Fitur Layanan Azure OpenAI (suara OpenAI) Azure AI Speech (suara OpenAI) Suara Azure AI Speech
Wilayah US Tengah Utara, Swedia Tengah US Tengah Utara, Swedia Tengah Tersedia di puluhan wilayah. Lihat daftar wilayah.
Variasi suara 6 6 Lebih dari 400
Nomor suara multibahasa 6 6 14
Cakupan bahasa multibahasa maks 57 57 77
Dukungan Speech Synthesis Markup Language (SSML) Tidak didukung Dukungan untuk subset elemen SSML. Dukungan untuk set lengkap SSML di Azure AI Speech.
Opsi pengembangan REST API Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API
Opsi penyebaran Hanya cloud Hanya cloud Cloud, tersemat, hibrid, dan kontainer.
Sintesis real time atau batch Real time Sintesis real time dan batch Sintesis real time dan batch
Latensi lebih besar dari 500 mdtk lebih besar dari 500 mdtk kurang dari 300 mdtk
Laju sampel audio yang disintesis 24 kHz 8, 16, 24, dan 48 kHz 8, 16, 24, dan 48 kHz
Format audio output ucapan opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Ada fitur dan kemampuan tambahan yang tersedia di Azure AI Speech yang tidak tersedia dengan suara OpenAI. Contohnya:

  • Teks OpenAI ke suara ucapan di Azure AI Speech hanya mendukung subset elemen SSML. Suara Azure AI Speech mendukung set lengkap elemen SSML.
  • Azure AI Speech mendukung peristiwa batas kata. Suara OpenAI tidak mendukung peristiwa batas kata.

Elemen SSML yang didukung oleh teks OpenAI ke suara ucapan di Azure AI Speech

Speech Synthesis Markup Language (SSML) dengan teks input menentukan struktur, konten, dan karakteristik teks ke output ucapan lainnya. Misalnya, Anda dapat menggunakan SSML untuk menentukan paragraf, kalimat, jeda atau jeda, atau keheningan. Anda dapat membungkus teks dengan tag peristiwa seperti bookmark atau viseme yang dapat diproses nanti oleh aplikasi Anda.

Tabel berikut menguraikan elemen Speech Synthesis Markup Language (SSML) yang didukung oleh teks OpenAI ke suara ucapan dalam ucapan Azure AI. Hanya subset tag SSML berikut yang didukung untuk suara OpenAI. Lihat struktur dan peristiwa dokumen SSML untuk informasi selengkapnya.

Nama elemen SSML Deskripsi
<speak> Menyertakan seluruh konten yang akan diucapkan. Ini adalah elemen akar dari dokumen SSML.
<voice> Menentukan suara yang digunakan untuk output teks ke ucapan.
<sub> Menunjukkan bahwa nilai teks atribut alias harus diucapkan alih-alih teks terlampir elemen.
<say-as> Menunjukkan jenis konten, seperti angka atau tanggal, teks elemen.

interpret-as Semua nilai properti didukung untuk elemen ini kecuali interpret-as="name". Misalnya, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> didukung, tetapi <say-as interpret-as="name">ED</say-as> tidak didukung. Untuk informasi selengkapnya, lihat pengucapan dengan SSML.
<s> Menunjukkan kalimat.
<lang> Menunjukkan lokal default untuk bahasa yang Anda inginkan untuk diucapkan suara neural.
<break> Gunakan untuk mengambil alih perilaku default jeda atau jeda antar kata.

Langkah berikutnya