Bagikan melalui


Apa itu teks ke ucapan?

Dalam gambaran umum ini, Anda mempelajari tentang manfaat dan kemampuan fitur teks ke ucapan dari layanan Ucapan, yang merupakan bagian dari layanan Azure AI.

Teks ke ucapan memungkinkan aplikasi, alat, atau perangkat Anda untuk mengonversi teks menjadi manusia seperti ucapan yang disintesis. Kemampuan teks ke ucapan juga dikenal sebagai sintesis ucapan. Gunakan suara saraf bawaan seperti manusia di luar kotak, atau buat suara neural kustom yang unik untuk produk atau merek Anda. Untuk daftar lengkap suara, bahasa, dan lokal yang didukung, lihat Dukungan bahasa dan suara untuk layanan Ucapan.

Fitur inti

Teks ke ucapan menyertakan fitur berikut:

Fitur Ringkasan Demo
Suara neural bawaan (disebut Neural pada halaman harga) Suara siap pakai yang sangat alami. Buat langganan Azure dan sumber daya Ucapan, lalu gunakan Speech SDK atau kunjungi portal Speech Studio dan pilih suara neural bawaan untuk memulai. Periksa detail harganya. Periksa Galeri Suara dan tentukan suara yang tepat untuk kebutuhan bisnis Anda.
Suara neural kustom (disebut Neural Kustom pada halaman harga) Layanan mandiri yang mudah digunakan untuk menciptakan suara merek alami, dengan akses terbatas untuk penggunaan yang bertanggung jawab. Buat langganan Azure dan sumber daya Ucapan (dengan tingkat S0), dan terapkan untuk menggunakan fitur suara kustom. Setelah Anda diberikan akses, kunjungi portal Speech Studio dan pilih Suara kustom untuk memulai. Periksa detail harganya. Periksa sampel suara.

Selengkapnya tentang teks neural ke fitur ucapan

Teks ke ucapan menggunakan jaringan neural mendalam untuk membuat suara komputer hampir tidak dapat dibedakan dari rekaman orang. Dengan artikulasi kata yang jelas, teks neural ke ucapan secara signifikan mengurangi kelelahan mendengarkan ketika pengguna berinteraksi dengan sistem AI.

Pola tekanan dan intonasi dalam bahasa lisan disebut prosodi. Sistem teks ke ucapan tradisional memecah prosody menjadi analisis linguistik terpisah dan langkah-langkah prediksi akustik yang diatur oleh model independen. Itu dapat menghasilkan sintesis suara yang teredam dan berdengung.

Berikut adalah informasi selengkapnya tentang fitur teks saraf ke ucapan di layanan Ucapan, dan bagaimana mereka mengatasi batas sistem teks ke ucapan tradisional:

  • Sintesis ucapan real time: Gunakan Speech SDK atau REST API untuk mengonversi teks ke ucapan dengan menggunakan suara saraf bawaan atau suara saraf kustom.

  • Sintesis asinkron audio panjang: Gunakan API sintesis batch untuk mensintesis teks secara asinkron ke file ucapan lebih dari 10 menit (misalnya, buku audio atau kuliah). Tidak seperti sintesis yang dilakukan melalui Speech SDK atau Speech to text REST API, respons tidak dikembalikan secara real time. Harapannya adalah bahwa permintaan dikirim secara asinkron, respons disurvei, dan audio yang disintesis diunduh saat layanan menyediakannya.

  • Suara saraf bawaan: Azure AI Speech menggunakan jaringan saraf mendalam untuk mengatasi batas sintesis ucapan tradisional mengenai stres dan intonasi dalam bahasa lisan. Prediksi prosodi dan sintesis suara dilakukan secara bersamaan, yang menghasilkan output yang lebih lancar dan terdengar alami. Setiap model suara neural bawaan tersedia pada 24 kHz dan keakuratan tinggi 48 kHz. Anda dapat menggunakan suara neural untuk:

    • Menjadikan interaksi dengan chatbot dan asisten suara lebih alami dan menarik.
    • Mengubah teks digital seperti e-book menjadi buku audio.
    • Meningkatkan sistem navigasi dalam mobil.

    Untuk daftar lengkap suara neural Ucapan Azure AI bawaan, lihat Dukungan bahasa dan suara untuk layanan Ucapan.

  • Meningkatkan output teks ke ucapan dengan SSML: Speech Synthesis Markup Language (SSML) adalah bahasa markup berbasis XML yang digunakan untuk menyesuaikan output teks ke ucapan. Dengan SSML, Anda dapat menyesuaikan pitch, menambahkan jeda, meningkatkan pengucapan, mengubah laju bicara, menyesuaikan volume, dan mengaitkan beberapa suara ke satu dokumen.

    Anda dapat menggunakan SSML untuk menentukan leksikon Anda sendiri atau beralih ke gaya berbicara yang berbeda. Dengan suara multibahasa, Anda juga dapat menyesuaikan bahasa yang diucapkan melalui SSML. Untuk meningkatkan output suara untuk skenario Anda, lihat Meningkatkan sintesis dengan Bahasa Markup Sintesis Ucapan dan Sintesis Ucapan dengan alat Pembuatan Konten Audio.

  • Visemes: Visemes adalah pose kunci dalam ucapan yang diamati, termasuk posisi bibir, rahang, dan lidah saat menghasilkan fonem tertentu. Visemes memiliki korelasi yang kuat dengan suara dan fonem.

    Dengan menggunakan peristiwa viseme di Speech SDK, Anda dapat menghasilkan data animasi wajah. Data ini dapat digunakan untuk menganimasikan wajah dalam komunikasi membaca bibir, edukasi, hiburan, daln layanan pelanggan. Viseme saat ini hanya didukung untuk en-US (Bahasa Inggris AS) suara neural.

Catatan

Selain suara neural Ucapan Azure AI (non HD), Anda juga dapat menggunakan suara definisi tinggi Azure AI Speech (HD) dan suara neural Azure OpenAI (HD dan non HD). Suara HD memberikan kualitas yang lebih tinggi untuk skenario yang lebih serbaguna.

Beberapa suara tidak mendukung semua tag Speech Synthesis Markup Language (SSML ). Ini termasuk teks neural ke suara HD ucapan, suara pribadi, dan suara yang disematkan.

  • Untuk suara definisi tinggi Azure AI Speech (HD), periksa dukungan SSML di sini.
  • Untuk suara pribadi, Anda dapat menemukan dukungan SSML di sini.
  • Untuk suara yang disematkan, periksa dukungan SSML di sini.

Memulai

Untuk mulai menggunakan teks ke ucapan, lihat mulai cepat. Teks ke ucapan tersedia melalui Speech SDK, REST API, dan Speech CLI.

Tip

Untuk mengonversi teks ke ucapan dengan pendekatan tanpa kode, coba alat Pembuatan Konten Audio di Speech Studio.

Kode Sampel

Kode sampel untuk teks ke ucapan tersedia di GitHub. Sampel ini mencakup konversi teks ke ucapan dalam bahasa pemrograman paling populer:

Suara neural kustom

Selain suara saraf bawaan, Anda dapat membuat suara neural kustom yang unik untuk produk atau merek Anda. Yang diperlukan untuk memulai adalah beberapa file audio dan transkripsi terkait. Untuk informasi selengkapnya, lihat Memulai dengan suara neural kustom.

Catatan harga

Karakter yang dapat ditagih

Saat Anda menggunakan fitur teks ke ucapan, Anda akan ditagih untuk setiap karakter yang dikonversi ke ucapan, termasuk tanda baca. Meskipun dokumen SSML itu sendiri tidak dapat ditagih, elemen opsional yang digunakan untuk menyesuaikan bagaimana teks dikonversi ke ucapan, seperti fonem dan nada, dihitung sebagai karakter yang dapat ditagih. Berikut adalah daftar apa yang dapat ditagihkan:

  • Teks yang diteruskan ke fitur teks ke ucapan di isi SSML permintaan
  • Semua markup dalam bidang teks isi permintaan dalam format SSML, kecuali untuk tag <speak> dan <voice>
  • Huruf, tanda baca, spasi, tab, markup, dan semua karakter spasi putih
  • Setiap titik kode didefinisikan dalam Unicode

Untuk informasi terperinci, lihat Harga layanan Ucapan.

Penting

Setiap karakter Bahasa Tionghoa dihitung sebagai dua karakter untuk penagihan, termasuk kanji yang digunakan dalam bahasa Jepang, hanja yang digunakan dalam bahasa Korea, atau hanzi yang digunakan dalam bahasa lain.

Pelatihan model dan waktu hosting untuk suara neural kustom

Pelatihan dan hosting suara neural kustom dihitung berdasarkan jam dan ditagih per detik. Untuk harga unit penagihan, lihat Harga layanan Ucapan.

Waktu pelatihan suara neural kustom (CNV) diukur dengan 'jam komputasi' (unit untuk mengukur waktu berjalan mesin). Biasanya, saat melatih model suara, dua tugas komputasi berjalan secara paralel. Jadi, jam komputasi yang dihitung lebih lama dari waktu pelatihan aktual. Rata-rata, dibutuhkan kurang dari satu jam komputasi untuk melatih suara CNV Lite; sementara untuk CNV Pro, biasanya dibutuhkan 20 hingga 40 jam komputasi untuk melatih suara gaya tunggal, dan sekitar 90 jam komputasi untuk melatih suara multi-gaya. Waktu pelatihan CNV ditagih dengan batas 96 jam komputasi. Jadi dalam kasus model suara dilatih dalam 98 jam komputasi, Anda hanya akan dikenakan biaya dengan 96 jam komputasi.

Hosting titik akhir suara neural kustom (CNV) diukur dengan waktu aktual (jam). Waktu hosting (jam) untuk setiap titik akhir dihitung pada 00:00 UTC setiap hari selama 24 jam sebelumnya. Misalnya, jika titik akhir telah aktif selama 24 jam pada hari pertama, titik akhir ditagih selama 24 jam pada pukul 00.00 UTC hari kedua. Jika titik akhir baru dibuat atau ditangguhkan pada siang hari, titik akhir akan ditagih untuk akumulasi waktu berjalannya hingga pukul 00.00 UTC hari kedua. Jika titik akhir saat ini tidak dihosting, titik akhir tidak ditagih. Selain perhitungan harian pada pukul 00:00 UTC setiap hari, penagihan juga segera dipicu ketika titik akhir dihapus atau ditangguhkan. Misalnya, untuk titik akhir yang dibuat pada 08:00 UTC pada 1 Desember, jam hosting akan dihitung hingga 16 jam pada pukul 00:00 UTC pada 2 Desember dan 24 jam pada pukul 00:00 UTC pada 3 Desember. Jika pengguna menangguhkan hosting titik akhir pada 16:30 UTC pada 3 Desember, durasi (16,5 jam) dari 00:00 hingga 16:30 UTC pada 3 Desember akan dihitung untuk penagihan.

Suara pribadi

Saat menggunakan fitur suara pribadi, Anda akan ditagih untuk penyimpanan profil dan sintesis.

  • Penyimpanan profil: Setelah profil suara pribadi dibuat, profil tersebut akan ditagih hingga dihapus dari sistem. Unit penagihan adalah per suara per hari. Jika penyimpanan suara berlangsung selama kurang dari 24 jam, penyimpanan suara akan ditagih sebagai satu hari penuh.
  • Sintesis: Ditagih per karakter. Untuk detail tentang karakter yang dapat ditagih, lihat karakter yang dapat ditagih di atas.

Avatar teks ke ucapan

Saat menggunakan fitur avatar teks ke ucapan, biaya akan dikenakan berdasarkan lamanya output video dan akan ditagih per detik. Namun, untuk avatar real-time, biaya didasarkan pada waktu ketika avatar aktif, terlepas dari apakah itu berbicara atau tetap diam, dan juga akan ditagih per detik. Untuk mengoptimalkan biaya untuk penggunaan avatar real-time, lihat tips yang disediakan dalam kode sampel (cari "Gunakan Video Lokal untuk Menganggur"). Hosting Avatar ditagih per detik per titik akhir. Anda dapat menangguhkan titik akhir untuk menghemat biaya. Jika Anda ingin menangguhkan titik akhir, Anda dapat menghapusnya secara langsung. Untuk menggunakannya lagi, cukup sebarkan ulang titik akhir.

Memantau metrik teks ke ucapan Azure

Memantau metrik utama yang terkait dengan layanan teks ke ucapan sangat penting untuk mengelola penggunaan sumber daya dan mengontrol biaya. Bagian ini akan memandu Anda tentang cara menemukan informasi penggunaan di portal Azure dan memberikan definisi terperinci tentang metrik utama. Untuk detail selengkapnya tentang metrik azure monitor, lihat Gambaran umum Metrik Azure Monitor.

Cara menemukan informasi penggunaan di portal Azure

Untuk mengelola sumber daya Azure Anda secara efektif, penting untuk mengakses dan meninjau informasi penggunaan secara teratur. Berikut cara menemukan informasi penggunaan:

  1. Buka portal Azure dan masuk dengan akun Azure Anda.

  2. Navigasi ke Sumber Daya dan pilih sumber daya yang ingin Anda pantau.

  3. Pilih Metrik di bawah Pemantauan dari menu sebelah kiri.

    Cuplikan layar memilih opsi metrik di bawah pemantauan.

  4. Menyesuaikan tampilan metrik.

    Anda dapat memfilter data menurut jenis sumber daya, jenis metrik, rentang waktu, dan parameter lainnya untuk membuat tampilan kustom yang selaras dengan kebutuhan pemantauan Anda. Selain itu, Anda dapat menyimpan tampilan metrik ke dasbor dengan memilih Simpan ke dasbor untuk akses mudah ke metrik yang sering digunakan.

  5. Siapkan pemberitahuan.

    Untuk mengelola penggunaan secara lebih efektif, siapkan pemberitahuan dengan menavigasi ke tab Pemberitahuan di bawah Pemantauan dari menu sebelah kiri. Pemberitahuan dapat memberi tahu Anda saat penggunaan Anda mencapai ambang batas tertentu, membantu mencegah biaya yang tidak terduga.

Definisi metrik

Di bawah ini adalah tabel yang meringkas metrik utama untuk layanan teks ke ucapan Azure.

Nama metrik Keterangan
Karakter yang Disintesis Melacak jumlah karakter yang dikonversi menjadi ucapan, termasuk suara neural bawaan dan suara neural kustom. Untuk detail tentang karakter yang dapat ditagih, lihat Karakter yang dapat ditagih.
Video Detik Disintesis Mengukur total durasi video yang disintesis, termasuk sintesis avatar batch, sintesis avatar real-time, dan sintesis avatar kustom.
Detik Hosting Model Avatar Melacak total waktu dalam detik yang dihosting model avatar kustom Anda.
Jam Hosting Model Suara Melacak total waktu dalam jam model suara neural kustom Anda dihosting.
Menit Pelatihan Model Suara Mengukur total waktu dalam menit untuk melatih model suara neural kustom Anda.

Dokumen referensi

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.

Langkah berikutnya