Memilih teknologi pengenalan dan sintesis ucapan Azure AI

2025-06-21

Layanan AI Azure membantu desainer dan pengembang beban kerja membuat aplikasi yang cerdas, mutakhir, siap pasar, dan bertanggung jawab dengan API dan model siap pakai dan siap pakai dan dapat disesuaikan.

Artikel ini membahas layanan AI yang menyediakan kemampuan pengenalan dan pembuatan suara seperti konversi ucapan-ke-teks dan teks-ke-ucapan, terjemahan audio, dan pengenalan pembicara. Ini juga termasuk dukungan membaca untuk orang-orang dengan perbedaan pembelajaran.

Catatan

Untuk mengumpulkan wawasan tentang istilah atau frasa atau mendapatkan analisis kontekstual terperinci dari bahasa lisan atau tertulis, lihat Memilih teknologi pemrosesan bahasa yang ditargetkan Azure AI.

Layanan

Layanan AI berikut dapat memberikan kemampuan pengenalan dan pembuatan ucapan untuk beban kerja Anda.

Microsoft Azure AI Speech menyediakan pemrosesan bahasa alami untuk analisis teks.
- Pakai Pidato saat Anda perlu menyalin atau menerjemahkan ucapan lisan dan mengidentifikasi pembicara dalam percakapan. Anda juga dapat menggunakan Ucapan sebagai alternatif berbiaya lebih rendah untuk pembuatan ucapan yang terdengar alami dibandingkan dengan sistem Whisper berkualitas lebih tinggi dalam model OpenAI.
- Jangan gunakan Pidato untuk obrolan, ringkasan konten, moderasi, atau memandu pengguna melalui skrip. Gunakan model lain untuk hal-hal tersebut sebagai gantinya.
Pembaca Imersif adalah alat yang mengimplementasikan teknik yang terbukti untuk meningkatkan pemahaman membaca bagi pembaca yang muncul, pelajar bahasa, dan orang-orang dengan perbedaan pembelajaran.
- Gunakan Pembaca Imersif untuk memberikan pengalaman keterbacaan yang ditingkatkan yang disesuaikan untuk pelajar bahasa atau orang-orang dengan perbedaan pembelajaran.
- Jangan gunakan Pembaca Imersif untuk kasus penggunaan text-to-speech tradisional.

Ucapan

Ucapan menyediakan kemampuan ucapan-ke-teks dan teks-ke-ucapan dengan sumber daya Ucapan. Anda dapat menyalin ucapan-ke-teks dengan akurasi tinggi, menghasilkan suara text-to-speech yang terdengar alami, menerjemahkan audio lisan, dan menggunakan pengenalan speaker selama percakapan. Buat suara kustom, tambahkan kata-kata tertentu ke kosakata dasar Anda, atau bangun model Anda sendiri. Jalankan Speech di mana saja, baik di cloud atau di edge dalam kontainer.

Ucapan tersedia untuk berbagai bahasa dan wilayah.

Kemampuan

Tabel berikut menyediakan daftar kemampuan yang tersedia di Speech.

Kemampuan	Deskripsi
Transkripsi batch	Mentranskripsikan sejumlah besar data audio dalam penyimpanan. REST API ucapan-ke-teks dan CLI Ucapan mendukung transkripsi batch.
Pengenalan niat	Niat adalah sesuatu yang ingin dilakukan pengguna, seperti memesan penerbangan, memeriksa cuaca, atau melakukan panggilan. Pengenalan maksud memungkinkan aplikasi, alat, dan perangkat Anda menentukan apa yang ingin dimulai atau dilakukan pengguna berdasarkan opsi. Anda menentukan maksud pengguna dalam model pengenal niat atau pemahaman bahasa percakapan.
Penilaian pengucapan	Mengevaluasi pengucapan ucapan dan memberikan umpan balik kepada pembicara tentang akurasi dan kelancaran audio lisan.
Pengenalan pembicara	Pengenalan pembicara dapat membantu menentukan siapa yang berbicara dalam klip audio. Layanan ini memverifikasi dan mengidentifikasi pembicara melalui karakteristik suara unik mereka dengan menggunakan biometri suara.
Ucapan ke teks	Mengonversi aliran audio menjadi teks secara real time atau dalam pemrosesan batch.
Teks ke ucapan	Memungkinkan aplikasi, alat, atau perangkat Anda untuk mengubah teks menjadi ucapan yang disintesis seperti manusia.
Terjemahan ucapan	Menyediakan terjemahan aliran audio ucapan-ke-ucapan dan ucapan-ke-teks dalam beberapa bahasa.
Terjemahan video	Menerjemahkan dan menghasilkan video dalam berbagai bahasa secara otomatis.

Kasus penggunaan

Tabel berikut menjelaskan beberapa cara Anda dapat menggunakan Ucapan.

Kasus penggunaan	Kemampuan untuk digunakan	Deskripsi
Pembuatan konten audio	Ucapan-ke-Teks	Jadikan interaksi dengan chatbot dan asisten suara lebih alami dan menarik dengan menggunakan suara saraf. Ubah teks digital seperti e-book menjadi buku audio dan tingkatkan sistem navigasi di dalam mobil.
Transkripsi pusat panggilan	Ucapan-ke-Teks	Transkripsikan panggilan secara real time atau proses sekumpulan panggilan, menyunting informasi pengenal pribadi, dan mengekstrak wawasan seperti sentimen untuk membantu kasus penggunaan pusat panggilan Anda.
Captioning	Ucapan-ke-Teks	Sinkronkan keterangan dengan audio input Anda, terapkan filter kata-kata kocak, dapatkan hasil parsial, terapkan penyesuaian, dan identifikasi bahasa lisan untuk skenario multibahasa.
Pembelajaran bahasa	Ucapan-ke-Teks	Berikan umpan balik penilaian pengucapan kepada pelajar bahasa, mendukung transkripsi waktu nyata untuk percakapan pembelajaran jarak jauh, dan membacakan materi ajar dengan keras menggunakan suara neural.
Asisten suara	Teks ke ucapan	Buat antarmuka percakapan yang alami dan seperti manusia untuk aplikasi dan pengalaman. Fitur asisten suara menyediakan interaksi yang cepat dan andal antara perangkat dan implementasi asisten.

Pembaca Imersif

Pembaca Imersif, bagian dari layanan AI, adalah alat yang dirancang secara inklusif yang menerapkan teknik yang telah terbukti untuk meningkatkan pemahaman bacaan bagi pembaca baru, pembelajar bahasa, dan orang-orang dengan perbedaan belajar seperti disleksia. Dengan pustaka klien Pembaca Imersif, Anda dapat menggunakan teknologi yang sama yang digunakan di Microsoft Word dan Microsoft OneNote untuk memberikan pengalaman yang ditingkatkan bagi pengguna beban kerja Anda.

Kemampuan

Kemampuan berikut tersedia untuk beban kerja Anda untuk membantu pengguna mencapai tujuan pemahaman bacaan mereka.

Isolasi konten untuk meningkatkan keterbacaan.
Tampilkan gambar untuk kata dan istilah umum.
Bantu memahami bagian-bagian pidato dan tata bahasa dengan menyoroti kata kerja, kata benda, dan kata ganti.
Baca konten dengan lantang, seperti teks yang dipilih pengguna di UI beban kerja Anda.
Terjemahkan konten ke dalam banyak bahasa secara real time. Metode ini membantu meningkatkan pemahaman bagi pembaca yang mempelajari bahasa baru.
Pecahkan kata-kata menjadi suku kata untuk meningkatkan keterbacaan atau untuk menyuarakan kata-kata baru.

Bagikan melalui

Memilih teknologi pengenalan dan sintesis ucapan Azure AI

Layanan

Ucapan

Kemampuan

Kasus penggunaan

Pembaca Imersif

Kemampuan

Langkah berikutnya

Sumber daya terkait

Saran dan Komentar

Sumber Daya Tambahan: