Ringkasan

Selesai

Tip

Lihat tab Teks dan gambar untuk detail selengkapnya!

Modul ini memperkenalkan pengenalan ucapan (ucapan ke teks) sebagai fondasi untuk aplikasi dan agen dengan dukungan suara. Pelajar menjelajahi bagaimana audio lisan diambil dari mikrofon atau file audio dan dikonversi menjadi teks tertulis menggunakan Azure Speech. Modul ini menjelaskan di mana ucapan ke teks cocok dalam aplikasi—baik di aplikasi klien atau layanan backend—dan menyoroti skenario umum seperti transkripsi langsung, keterangan, pemrosesan pesan suara, dan memberikan input teks ke agen AI.

Modul kemudian mencakup sintesis ucapan (teks ke ucapan), yang memungkinkan aplikasi menghasilkan audio lisan yang terdengar alami dari teks. Pelajar melihat bagaimana Azure Speech menggunakan suara saraf untuk mengontrol pengucapan, nada, kecepatan, dan nada, dan bagaimana audio yang disintesis dapat segera diputar atau disimpan untuk digunakan nanti. Bagian ini menekankan bagaimana teks ke ucapan memungkinkan aplikasi dan agen merespons dengan lantang, meningkatkan aksesibilitas, interaksi hands-free, dan pengalaman pengguna secara keseluruhan.

Terakhir, modul ini menggabungkan kemampuan ini dengan ucapan-ke-ucapan menggunakan Voice Live. Pelajar menemukan bagaimana Voice Live menggabungkan ucapan ke teks, penalaran AI, dan teks ke ucapan ke dalam satu layanan yang dikelola sepenuhnya untuk percakapan real-time. Alih-alih menjahit beberapa komponen, pengembang dapat menggunakan Voice Live untuk membangun agen suara alami yang responsif yang dapat mendengarkan, berpikir, dan berbicara—sehingga memudahkan untuk menciptakan pengalaman percakapan siap produksi dengan Azure Speech dan Microsoft Foundry.

Gunakan tautan di bawah ini untuk mempelajari lebih lanjut.