Mulai menggunakan ucapan di Azure

3 menit

Microsoft Azure menawarkan kemampuan pengenalan ucapan dan sintesis ucapan melalui layanan Azure AI Speech , yang mencakup antarmuka pemrograman aplikasi (API) berikut:

API Ucapan ke teks
API Teks ke ucapan

Sumber daya Azure untuk Azure AI Speech

Untuk menggunakan Azure AI Speech dalam aplikasi, Anda harus membuat sumber daya yang sesuai di langganan Azure Anda. Anda dapat memilih untuk membuat salah satu dari jenis sumber daya berikut:

Sumber daya Ucapan - pilih jenis sumber daya ini jika Anda hanya berencana menggunakan Azure AI Speech, atau jika Anda ingin mengelola akses dan penagihan untuk sumber daya secara terpisah dari layanan lain.
Sumber daya layanan Azure AI - pilih jenis sumber daya ini jika Anda berencana menggunakan Azure AI Speech dalam kombinasi dengan layanan Azure AI lainnya, dan Anda ingin mengelola akses dan penagihan untuk layanan ini bersama-sama.

API Ucapan ke teks

Anda dapat menggunakan Azure AI Speech ke API teks untuk melakukan transkripsi audio secara real time atau batch ke dalam format teks. Sumber audio untuk transkripsi dapat menjadi aliran audio real time dari mikrofon atau file audio.

Model yang digunakan oleh API Ucapan ke teks, didasarkan pada Model Bahasa Universal yang dilatih oleh Microsoft. Data untuk model ini dimiliki Microsoft dan disebarkan ke Microsoft Azure. Model ini dioptimalkan untuk dua skenario, percakapan dan dikte. Anda juga dapat membuat dan melatih model kustom Anda sendiri termasuk akustik, bahasa, dan pengucapan jika model bawaan dari Microsoft tidak menyediakan apa yang dibutuhkan.

Transkripsi real time

Ucapan real time ke teks memungkinkan Anda mentranskripsikan teks dalam aliran audio. Anda dapat menggunakan transkripsi real time untuk presentasi, demo, atau skenario lain saat seseorang berbicara.

Agar transkripsi real time berfungsi, aplikasi Anda harus mendengarkan audio masuk dari mikrofon, atau sumber input audio lainnya seperti file audio. Kode aplikasi Anda mengalirkan audio ke layanan, yang menampilkan teks yang ditranskripsikan.

Transkripsi batch

Tidak semua skenario ucapan ke teks real time. Anda mungkin memiliki rekaman audio yang disimpan di berbagi file, server jarak jauh, atau bahkan di penyimpanan Azure. Anda dapat mengarahkan ke file audio menggunakan URI tanda tangan akses bersama (SAS) dan menerima hasil transkripsi secara asinkron.

Transkripsi batch harus dijalankan dengan cara yang asinkron karena tugas batch dijadwalkan berdasarkan upaya terbaik. Biasanya pekerjaan akan mulai dieksekusi dalam beberapa menit dari permintaan tetapi tidak ada perkiraan kapan pekerjaan berubah menjadi status berjalan.

API teks ke ucapan

API teks ke ucapan memungkinkan Anda mengonversi input teks ke ucapan yang dapat didengar, yang dapat diputar langsung melalui speaker komputer atau ditulis ke file audio.

Suara sintesis ucapan

Saat Anda menggunakan API teks ke ucapan, Anda dapat menentukan suara yang akan digunakan untuk menskalakan teks. Kemampuan ini menawarkan fleksibilitas untuk mempersonalisasi solusi sintesis ucapan Anda dan memberinya karakter tertentu.

Layanan ini mencakup beberapa suara yang telah ditentukan sebelumnya dengan dukungan untuk beberapa bahasa dan pengucapan regional, termasuk suara saraf yang memanfaatkan jaringan saraf untuk mengatasi keterbatasan umum dalam sintesis ucapan sehubungan dengan intonasi, menghasilkan suara yang terdengar lebih alami. Anda juga dapat mengembangkan suara kustom dan menggunakannya dengan API teks ke ucapan

Bahasa yang Didukung

API ucapan ke teks dan teks ke ucapan mendukung berbagai bahasa. Gunakan tautan di bawah untuk menemukan detail tentang bahasa yang didukung:

Bahasa ucapan ke teks.
Teks ke bahasa ucapan.

Lanjutkan