Apa itu teks OpenAI ke suara ucapan?
Seperti suara Azure AI Speech, suara teks ke ucapan OpenAI memberikan sintesis ucapan berkualitas tinggi untuk mengonversi teks tertulis menjadi audio lisan yang terdengar alami. Ini membuka berbagai kemungkinan untuk pengalaman pengguna yang imersif dan interaktif.
Teks OpenAI ke suara ucapan tersedia melalui dua varian model: Neural
dan NeuralHD
.
Neural
: Dioptimalkan untuk kasus penggunaan real time dengan latensi terendah, tetapi kualitasnya lebih rendah daripadaNeuralHD
.NeuralHD
: Dioptimalkan untuk kualitas.
Untuk demonstrasi suara OpenAI di Azure OpenAI Studio dan Speech Studio, lihat video pengantar ini.
Teks yang tersedia untuk suara ucapan di layanan Azure AI
Anda mungkin bertanya: Jika saya ingin menggunakan teks OpenAI untuk suara ucapan, haruskah saya menggunakannya melalui Layanan Azure OpenAI atau melalui Azure AI Speech? Apa skenario yang memandu saya untuk menggunakan satu atau yang lain?
Setiap model suara menawarkan fitur dan kemampuan yang berbeda, memungkinkan Anda memilih salah satu yang paling sesuai dengan kebutuhan spesifik Anda. Anda ingin memahami opsi dan perbedaan antara suara teks ke ucapan yang tersedia di layanan Azure AI.
Anda dapat memilih dari teks berikut ke suara ucapan di layanan Azure AI:
- Teks OpenAI ke suara ucapan di Azure OpenAI Service. Tersedia di wilayah berikut: US Tengah Utara dan Swedia Tengah.
- Teks OpenAI ke suara ucapan di Azure AI Speech. Tersedia di wilayah berikut: US Tengah Utara dan Swedia Tengah.
- Teks layanan Ucapan Azure AI ke suara ucapan. Tersedia di puluhan wilayah. Lihat daftar wilayah.
Teks OpenAI ke suara ucapan melalui Azure OpenAI Service atau melalui Azure AI Speech?
Jika Anda ingin menggunakan teks OpenAI untuk suara ucapan, Anda dapat memilih apakah akan menggunakannya melalui Azure OpenAI atau melalui Azure AI Speech. Dalam kedua kasus, hasil sintesis ucapan sama.
Berikut adalah perbandingan fitur antara teks OpenAI dengan suara ucapan di Azure OpenAI Service dan teks OpenAI dengan suara ucapan di Azure AI Speech.
Fitur | Layanan Azure OpenAI (suara OpenAI) | Azure AI Speech (suara OpenAI) | Suara Azure AI Speech |
---|---|---|---|
Wilayah | US Tengah Utara, Swedia Tengah | US Tengah Utara, Swedia Tengah | Tersedia di puluhan wilayah. Lihat daftar wilayah. |
Variasi suara | 6 | 6 | Lebih dari 400 |
Nomor suara multibahasa | 6 | 6 | 14 |
Cakupan bahasa multibahasa maks | 57 | 57 | 77 |
Dukungan Speech Synthesis Markup Language (SSML) | Tidak didukung | Dukungan untuk subset elemen SSML. | Dukungan untuk set lengkap SSML di Azure AI Speech. |
Opsi pengembangan | REST API | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API |
Opsi penyebaran | Hanya cloud | Hanya cloud | Cloud, tersemat, hibrid, dan kontainer. |
Sintesis real time atau batch | Real time | Sintesis real time dan batch | Sintesis real time dan batch |
Latensi | lebih besar dari 500 mdtk | lebih besar dari 500 mdtk | kurang dari 300 mdtk |
Laju sampel audio yang disintesis | 24 kHz | 8, 16, 24, dan 48 kHz | 8, 16, 24, dan 48 kHz |
Format audio output ucapan | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Ada fitur dan kemampuan tambahan yang tersedia di Azure AI Speech yang tidak tersedia dengan suara OpenAI. Contohnya:
- Teks OpenAI ke suara ucapan di Azure AI Speech hanya mendukung subset elemen SSML. Suara Azure AI Speech mendukung set lengkap elemen SSML.
- Azure AI Speech mendukung peristiwa batas kata. Suara OpenAI tidak mendukung peristiwa batas kata.
Elemen SSML yang didukung oleh teks OpenAI ke suara ucapan di Azure AI Speech
Speech Synthesis Markup Language (SSML) dengan teks input menentukan struktur, konten, dan karakteristik teks ke output ucapan lainnya. Misalnya, Anda dapat menggunakan SSML untuk menentukan paragraf, kalimat, jeda atau jeda, atau keheningan. Anda dapat membungkus teks dengan tag peristiwa seperti bookmark atau viseme yang dapat diproses nanti oleh aplikasi Anda.
Tabel berikut menguraikan elemen Speech Synthesis Markup Language (SSML) yang didukung oleh teks OpenAI ke suara ucapan dalam ucapan Azure AI. Hanya subset tag SSML berikut yang didukung untuk suara OpenAI. Lihat struktur dan peristiwa dokumen SSML untuk informasi selengkapnya.
Nama elemen SSML | Deskripsi |
---|---|
<speak> |
Menyertakan seluruh konten yang akan diucapkan. Ini adalah elemen akar dari dokumen SSML. |
<voice> |
Menentukan suara yang digunakan untuk output teks ke ucapan. |
<sub> |
Menunjukkan bahwa nilai teks atribut alias harus diucapkan alih-alih teks terlampir elemen. |
<say-as> |
Menunjukkan jenis konten, seperti angka atau tanggal, teks elemen.interpret-as Semua nilai properti didukung untuk elemen ini kecuali interpret-as="name" . Misalnya, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> didukung, tetapi <say-as interpret-as="name">ED</say-as> tidak didukung. Untuk informasi selengkapnya, lihat pengucapan dengan SSML. |
<s> |
Menunjukkan kalimat. |
<lang> |
Menunjukkan lokal default untuk bahasa yang Anda inginkan untuk diucapkan suara neural. |
<break> |
Gunakan untuk mengambil alih perilaku default jeda atau jeda antar kata. |
Langkah berikutnya
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk