Apa itu teks ke ucapan?

2025-06-02

Dalam gambaran umum ini, Anda mempelajari tentang manfaat dan kemampuan fitur teks ke ucapan dari layanan Ucapan, yang merupakan bagian dari layanan Azure AI.

Teks ke ucapan memungkinkan aplikasi, alat, atau perangkat Anda untuk mengonversi teks menjadi manusia seperti ucapan yang disintesis. Kemampuan teks ke ucapan juga dikenal sebagai sintesis ucapan. Gunakan suara standar seperti manusia di luar kotak, atau buat suara kustom yang unik untuk produk atau merek Anda. Untuk daftar lengkap suara, bahasa, dan lokal yang didukung, lihat Dukungan bahasa dan suara untuk layanan Ucapan.

Fitur inti

Teks ke ucapan menyertakan fitur berikut:

Fitur	Ringkasan	Demo
Suara standar (disebut Neural pada halaman harga)	Suara siap pakai yang sangat alami. Buat langganan Azure dan sumber daya Ucapan, lalu gunakan Speech SDK atau kunjungi portal Speech Studio dan pilih suara standar untuk memulai. Periksa detail harganya.	Periksa Galeri Suara dan tentukan suara yang tepat untuk kebutuhan bisnis Anda.
Suara kustom	Layanan mandiri yang mudah digunakan untuk menciptakan suara merek alami, dengan akses terbatas untuk penggunaan yang bertanggung jawab. Buat langganan Azure dan sumber daya Azure AI Foundry lalu terapkan untuk menggunakan suara kustom. Setelah Anda diberikan akses, buka dokumentasi penyempurnaan suara profesional untuk memulai. Periksa detail harganya.	Periksa sampel suara.

Selengkapnya tentang teks neural ke fitur ucapan

Teks ke ucapan menggunakan jaringan neural mendalam untuk membuat suara komputer hampir tidak dapat dibedakan dari rekaman orang. Dengan artikulasi kata yang jelas, teks neural ke ucapan secara signifikan mengurangi kelelahan mendengarkan ketika pengguna berinteraksi dengan sistem AI.

Pola tekanan dan intonasi dalam bahasa lisan disebut prosodi. Sistem teks ke ucapan tradisional memecah prosody menjadi analisis linguistik terpisah dan langkah-langkah prediksi akustik yang diatur oleh model independen. Itu dapat menghasilkan sintesis suara yang teredam dan berdengung.

Berikut adalah informasi selengkapnya tentang fitur teks saraf ke ucapan di layanan Ucapan, dan bagaimana mereka mengatasi batas sistem teks ke ucapan tradisional:

Sintesis ucapan real time: Gunakan Speech SDK atau REST API untuk mengonversi teks ke ucapan dengan menggunakan suara standar atau suara kustom.
Sintesis asinkron audio panjang: Gunakan API sintesis batch untuk mensintesis teks secara asinkron ke file ucapan lebih dari 10 menit (misalnya, buku audio atau kuliah). Tidak seperti sintesis yang dilakukan melalui Speech SDK atau Speech to text REST API, respons tidak dikembalikan secara real time. Harapannya adalah bahwa permintaan dikirim secara asinkron, respons disurvei, dan audio yang disintesis diunduh saat layanan menyediakannya.
Suara standar: Azure AI Speech menggunakan jaringan neural mendalam untuk mengatasi batas sintesis ucapan tradisional mengenai stres dan intonasi dalam bahasa lisan. Prediksi prosodi dan sintesis suara dilakukan secara bersamaan, yang menghasilkan output yang lebih lancar dan terdengar alami. Setiap model suara standar tersedia pada 24 kHz dan fidelitas tinggi 48 kHz. Anda dapat menggunakan suara neural untuk:
- Menjadikan interaksi dengan chatbot dan asisten suara lebih alami dan menarik.
- Mengubah teks digital seperti e-book menjadi buku audio.
- Meningkatkan sistem navigasi dalam mobil.
Untuk daftar lengkap suara neural standar Azure AI Ucapan, lihat Dukungan bahasa dan suara untuk layanan Ucapan.
Meningkatkan output teks ke ucapan dengan SSML: Speech Synthesis Markup Language (SSML) adalah bahasa markup berbasis XML yang digunakan untuk menyesuaikan output teks ke ucapan. Dengan SSML, Anda dapat menyesuaikan pitch, menambahkan jeda, meningkatkan pengucapan, mengubah laju bicara, menyesuaikan volume, dan mengaitkan beberapa suara ke satu dokumen.

Anda dapat menggunakan SSML untuk menentukan leksikon Anda sendiri atau beralih ke gaya berbicara yang berbeda. Dengan suara multibahasa, Anda juga dapat menyesuaikan bahasa yang diucapkan melalui SSML. Untuk meningkatkan output suara untuk skenario Anda, lihat Meningkatkan sintesis dengan Bahasa Markup Sintesis Ucapan dan Sintesis Ucapan dengan alat Pembuatan Konten Audio.
Visemes: Visemes adalah pose kunci dalam ucapan yang diamati, termasuk posisi bibir, rahang, dan lidah saat menghasilkan fonem tertentu. Visemes memiliki korelasi yang kuat dengan suara dan fonem.

Dengan menggunakan peristiwa viseme di Speech SDK, Anda dapat menghasilkan data animasi wajah. Data ini dapat digunakan untuk menganimasikan wajah dalam komunikasi membaca bibir, edukasi, hiburan, daln layanan pelanggan. Viseme saat ini hanya didukung untuk en-US (Bahasa Inggris AS) suara neural.

Catatan

Selain suara neural Ucapan Azure AI (non HD), Anda juga dapat menggunakan suara definisi tinggi Azure AI Speech (HD) dan suara neural Azure OpenAI (HD dan non HD). Suara HD memberikan kualitas yang lebih tinggi untuk skenario yang lebih serbaguna.

Beberapa suara tidak mendukung semua tag Speech Synthesis Markup Language (SSML ). Ini termasuk teks neural ke suara HD ucapan, suara pribadi, dan suara yang disematkan.

Untuk suara definisi tinggi Azure AI Speech (HD), periksa dukungan SSML di sini.
Untuk suara pribadi, Anda dapat menemukan dukungan SSML di sini.
Untuk suara yang disematkan, periksa dukungan SSML di sini.

Memulai

Untuk mulai menggunakan teks ke ucapan, lihat mulai cepat. Teks ke ucapan tersedia melalui Speech SDK, REST API, dan Speech CLI.

Petunjuk / Saran

Untuk mengonversi teks ke ucapan dengan pendekatan tanpa kode, coba alat Pembuatan Konten Audio di Speech Studio.

Kode Sampel

Kode sampel untuk teks ke ucapan tersedia di GitHub. Sampel ini mencakup konversi teks ke ucapan dalam bahasa pemrograman paling populer:

Suara kustom

Selain suara standar, Anda dapat membuat suara kustom yang unik untuk produk atau merek Anda. Suara kustom adalah istilah payung yang mencakup penyempurnaan suara profesional dan suara pribadi. Yang diperlukan untuk memulai adalah beberapa file audio dan transkripsi terkait. Untuk informasi selengkapnya, lihat dokumentasi penyempurnaan suara profesional.

Catatan harga

Karakter yang dapat ditagih

Saat Anda menggunakan fitur teks ke ucapan, Anda akan ditagih untuk setiap karakter yang dikonversi ke ucapan, termasuk tanda baca. Meskipun dokumen SSML itu sendiri tidak dapat ditagih, elemen opsional yang digunakan untuk menyesuaikan bagaimana teks dikonversi ke ucapan, seperti fonem dan nada, dihitung sebagai karakter yang dapat ditagih. Berikut adalah daftar apa yang dapat ditagihkan:

Teks yang diteruskan ke fitur teks ke ucapan di isi SSML permintaan
Semua markup dalam bidang teks isi permintaan dalam format SSML, kecuali untuk tag <speak> dan <voice>
Huruf, tanda baca, spasi, tab, markup, dan semua karakter spasi putih
Setiap titik kode didefinisikan dalam Unicode

Untuk informasi terperinci, lihat Harga layanan Ucapan.

Penting

Setiap karakter Bahasa Tionghoa dihitung sebagai dua karakter untuk penagihan, termasuk kanji yang digunakan dalam bahasa Jepang, hanja yang digunakan dalam bahasa Korea, atau hanzi yang digunakan dalam bahasa lain.

Pelatihan model suara dan penyediaan waktu hosting untuk suara kustom

Pelatihan dan hosting suara kustom dihitung berdasarkan jam dan ditagih per detik. Untuk harga unit penagihan, lihat Harga layanan Ucapan.

Waktu penyempurnaan suara profesional diukur dengan "jam komputasi" (unit untuk mengukur waktu berjalan mesin). Biasanya, saat melatih model suara, dua tugas komputasi berjalan secara paralel. Jadi, jam komputasi yang dihitung lebih lama dari waktu pelatihan aktual. Untuk penyempurnaan suara profesional, biasanya dibutuhkan 20 hingga 40 jam komputasi untuk melatih suara gaya tunggal, dan sekitar 90 jam komputasi untuk melatih suara multi-gaya. Waktu penyempurnaan suara profesional ditagih dengan batas maksimum 96 jam komputasi. Jadi dalam kasus model suara dilatih dalam 98 jam komputasi, Anda hanya akan dikenakan biaya dengan 96 jam komputasi.

Penyediaan titik akhir suara kustom diukur berdasarkan waktu aktual (per jam). Waktu hosting (jam) untuk setiap titik akhir dihitung pada 00:00 UTC setiap hari selama 24 jam sebelumnya. Misalnya, jika titik akhir telah aktif selama 24 jam pada hari pertama, titik akhir ditagih selama 24 jam pada pukul 00.00 UTC hari kedua. Jika titik akhir baru dibuat atau ditangguhkan pada siang hari, titik akhir akan ditagih untuk akumulasi waktu berjalannya hingga pukul 00.00 UTC hari kedua. Jika titik akhir saat ini tidak dihosting, titik akhir tidak ditagih. Selain perhitungan harian pada pukul 00:00 UTC setiap hari, penagihan juga segera dipicu ketika titik akhir dihapus atau ditangguhkan. Misalnya, untuk titik akhir yang dibuat pada 08:00 UTC pada 1 Desember, jam hosting akan dihitung hingga 16 jam pada pukul 00:00 UTC pada 2 Desember dan 24 jam pada pukul 00:00 UTC pada 3 Desember. Jika pengguna menangguhkan hosting titik akhir pada 16:30 UTC pada 3 Desember, durasi (16,5 jam) dari 00:00 hingga 16:30 UTC pada 3 Desember akan dihitung untuk penagihan.

Suara pribadi

Saat menggunakan fitur suara pribadi, Anda akan ditagih untuk penyimpanan profil dan sintesis.

Penyimpanan profil: Setelah profil suara pribadi dibuat, profil tersebut akan ditagih hingga dihapus dari sistem. Unit penagihan adalah per suara per hari. Jika penyimpanan suara berlangsung selama kurang dari 24 jam, penyimpanan masih ditagih sebagai satu hari penuh.
Sintesis: Ditagih per karakter. Untuk detail tentang karakter yang dapat ditagih, lihat karakter yang dapat ditagih di atas.

Avatar teks ke ucapan

Saat Anda menggunakan fitur avatar teks ke ucapan, biaya ditagih per detik berdasarkan panjang output video. Namun, untuk avatar real-time, biaya ditagih per detik berdasarkan waktu ketika avatar aktif, terlepas dari apakah itu berbicara atau tetap diam. Untuk mengoptimalkan biaya untuk penggunaan avatar real time, lihat tips "Gunakan Video Lokal untuk Menganggur" yang disediakan dalam kode sampel obrolan avatar.

Pelatihan avatar teks ke ucapan kustom diukur dengan "jam komputasi" (waktu berjalan mesin) dan ditagih per detik. Durasi pelatihan bervariasi tergantung pada berapa banyak data yang Anda gunakan. Biasanya membutuhkan waktu rata-rata 20-40 jam komputasi untuk melatih avatar kustom. Waktu pelatihan avatar ditagih dengan batas 96 jam komputasi. Jadi dalam kasus model avatar dilatih dalam 98 jam komputasi, Anda hanya dikenakan biaya selama 96 jam komputasi.

Hosting Avatar ditagih per detik per titik akhir. Anda dapat menangguhkan titik akhir untuk menghemat biaya. Jika Anda ingin menangguhkan titik akhir, Anda dapat menghapusnya secara langsung. Untuk menggunakannya lagi, sebarkan ulang titik akhir.

Memantau metrik teks ke ucapan Azure

Memantau metrik utama yang terkait dengan layanan teks ke ucapan sangat penting untuk mengelola penggunaan sumber daya dan mengontrol biaya. Bagian ini memandu Anda tentang cara menemukan informasi penggunaan di portal Azure dan memberikan definisi terperinci tentang metrik utama. Untuk informasi selengkapnya tentang metrik azure monitor, lihat Gambaran umum Metrik Azure Monitor.

Cara menemukan informasi penggunaan di portal Azure

Untuk mengelola sumber daya Azure Anda secara efektif, penting untuk mengakses dan meninjau informasi penggunaan secara teratur. Berikut cara menemukan informasi penggunaan:

Buka portal Azure dan masuk dengan akun Azure Anda.
Navigasi ke Sumber Daya dan pilih sumber daya yang ingin Anda pantau.
Pilih Metrik di bawah Pemantauan dari menu sebelah kiri.
Menyesuaikan tampilan metrik.

Anda dapat memfilter data menurut jenis sumber daya, jenis metrik, rentang waktu, dan parameter lainnya untuk membuat tampilan kustom yang selaras dengan kebutuhan pemantauan Anda. Selain itu, Anda dapat menyimpan tampilan metrik ke dasbor dengan memilih Simpan ke dasbor untuk akses mudah ke metrik yang sering digunakan.
Siapkan pemberitahuan.

Untuk mengelola penggunaan secara lebih efektif, siapkan pemberitahuan dengan menavigasi ke tab Pemberitahuan di bawah Pemantauan dari menu sebelah kiri. Pemberitahuan dapat memberi tahu Anda saat penggunaan Anda mencapai ambang batas tertentu, membantu mencegah biaya yang tidak terduga.

Definisi metrik

Berikut adalah tabel yang meringkas metrik utama untuk teks Azure ke ucapan.

Nama metrik	Deskripsi
Karakter yang Disintesis	Melacak jumlah karakter yang dikonversi menjadi ucapan, termasuk suara standar dan suara kustom. Untuk detail tentang karakter yang dapat ditagih, lihat Karakter yang dapat ditagih.
Video Detik Disintesis	Mengukur total durasi video yang disintesis, termasuk sintesis avatar batch, sintesis avatar real-time, dan sintesis avatar kustom.
Detik Hosting Model Avatar	Melacak total waktu dalam detik yang dihosting model avatar kustom Anda.
Jam Hosting Model Suara	Melacak total waktu model suara kustom Anda dihosting dalam jam.
Menit Pelatihan Model Suara	Mengukur total waktu dalam menit untuk melatih model suara kustom Anda.

Dokumen referensi

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.