Apa itu layanan Ucapan?

Artikel
01/23/2024

Layanan Ucapan menyediakan kemampuan ucapan ke teks dan teks ke ucapan dengan sumber daya Ucapan. Anda dapat mentranskripsikan ucapan ke teks dengan akurasi tinggi, menghasilkan teks yang terdengar alami ke suara ucapan, menerjemahkan audio lisan, dan menggunakan pengenalan pembicara selama percakapan.

Image of tiles that highlight some Speech service features.

Buat suara kustom, tambahkan kata-kata tertentu ke kosakata dasar Anda, atau bangun model Anda sendiri. Jalankan Ucapan di mana saja, di cloud atau di tepi dalam kontainer. Sangatlah mudah untuk mengaktifkan ucapan bagi aplikasi, alat, dan perangkat Anda dengan Speech CLI, Speech SDK, Speech Studio, atau REST API.

Ucapan tersedia untuk banyak bahasa, wilayah, dan titik harga.

Skenario ucapan

Skenario umum untuk ucapan meliputi:

Keterangan: Pelajari cara menyinkronkan keterangan dengan audio input Anda, menerapkan filter kata-kata kasar, mendapatkan hasil parsial, menerapkan kustomisasi, dan mengidentifikasi bahasa lisan untuk skenario multibahasa.
Pembuatan Konten Audio: Anda dapat menggunakan suara neural untuk membuat interaksi dengan bot obrolan dan asisten suara lebih alami dan menarik, mengubah teks digital seperti e-book menjadi buku audio, dan meningkatkan sistem navigasi dalam mobil.
Pusat Panggilan: Mentranskripsikan panggilan secara real time atau proses batch panggilan, meredaksi informasi identifikasi pribadi, dan mengekstrak informasi seperti sentimen untuk membantu kasus penggunaan pusat panggilan Anda.
Pembelajaran bahasa: Memberikan umpan balik penilaian pengucapan kepada pelajar bahasa, mendukung transkripsi real time untuk percakapan pembelajaran jarak jauh, dan membacakan materi ajar dengan keras dengan suara saraf.
Asisten suara: Buat antarmuka percakapan alami seperti manusia untuk aplikasi dan pengalaman mereka. Fitur asisten suara menyediakan interaksi yang cepat dan andal antara perangkat dan implementasi asisten.

Microsoft menggunakan Ucapan untuk banyak skenario, seperti keterangan di Teams, dikte di Office 365, dan Baca Dengan Keras di browser Microsoft Edge.

Image showing logos of Microsoft products where Speech service is used.

Kemampuan ucapan

Bagian ini meringkas fitur Ucapan dengan tautan untuk informasi selengkapnya.

Ucapan ke Teks

Gunakan ucapan ke teks untuk mentranskripsikan audio ke dalam teks, baik secara real-time atau asinkron dengan transkripsi batch.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Mengonversi audio ke teks dari berbagai sumber, termasuk mikrofon, file audio, dan penyimpanan blob. Gunakan diarisasi pembicara untuk menentukan siapa yang mengatakan apa dan kapan. Dapatkan transkrip yang dapat dibaca dengan pemformatan dan tanda baca otomatis.

Model dasar mungkin tidak cukup jika audio berisi kebisingan sekitar atau mencakup banyak industri dan jargon khusus domain. Dalam kasus ini, Anda dapat membuat dan melatih model ucapan kustom dengan data akustik , bahasa, dan pengucapan. Model ucapan kustom bersifat privat dan dapat menawarkan keunggulan kompetitif.

Ucapan real time ke teks

Dengan ucapan real time ke teks, audio ditranskripsikan sebagai ucapan dikenali dari mikrofon atau file. Gunakan ucapan real time ke teks untuk aplikasi yang perlu mentranskripsikan audio secara real time seperti:

Transkripsi, keterangan, atau subtitel untuk rapat langsung
Diarisasi
Penilaian pengucapan
Bantuan agen pusat kontak
Pendiktean
Agen suara

Transkripsi batch

Transkripsi batch digunakan untuk mentranskripsikan sejumlah besar audio dalam penyimpanan. Anda dapat mengarahkan ke file audio menggunakan URI tanda tangan akses bersama (SAS) dan menerima hasil transkripsi secara asinkron. Gunakan transkripsi batch untuk aplikasi yang perlu mentranskripsikan audio secara massal seperti:

Transkripsi, keterangan, atau subtitel untuk audio yang telah direkam sebelumnya
Analitik pasca-panggilan pusat kontak
Diarisasi

Teks ke ucapan

Dengan teks ke ucapan, Anda dapat mengonversi teks input menjadi manusia seperti ucapan yang disintesis. Gunakan suara saraf, yang merupakan manusia seperti suara yang didukung oleh jaringan saraf yang dalam. Gunakan Bahasa Markup Sintesis Ucapan (SSML) untuk menyempurnakan nada, pengucapan, kecepatan bicara, volume, dan banyak lagi.

Suara saraf bawaan: Suara di luar kebiasaan yang sangat alami. Periksa sampel suara saraf bawaan Galeri Suara dan tentukan suara yang tepat untuk kebutuhan bisnis Anda.
Suara saraf kustom: Selain suara saraf bawaan yang keluar dari kotak, Anda juga dapat membuat suara saraf kustom yang dapat dikenali dan unik untuk merek atau produk Anda. Suara saraf kustom bersifat pribadi dan dapat menawarkan keunggulan kompetitif. Periksa sampel suara neural kustom di sini.

Terjemahan ucapan

Terjemahan ucapan memungkinkan terjemahan ucapan multi-bahasa secara real-time untuk aplikasi, alat, dan perangkat Anda. Gunakan fitur ini untuk terjemahan ucapan ke ucapan dan ucapan ke teks.

Identifikasi bahasa

Identifikasi bahasa digunakan untuk mengidentifikasi bahasa yang diucapkan dalam audio saat dibandingkan dengan daftar bahasa yang didukung. Gunakan identifikasi bahasa dengan sendirinya, dengan pengenalan ucapan ke teks, atau dengan terjemahan ucapan.

Pengenalan pembicara

Pengenalan pembicara menyediakan algoritma yang memverifikasi dan mengidentifikasi pembicara berdasarkan karakteristik suara unik mereka. Pengenalan pembicara digunakan untuk menjawab pertanyaan "Siapa yang berbicara?".

Penilaian pengucapan

Penilaian pengucapan mengevaluasi pengucapan ucapan dan memberikan umpan balik kepada pembicara tentang keakuratan dan kefasihan audio lisan. Dengan penilaian pengucapan, pelajar bahasa dapat berlatih, mendapatkan umpan balik instan, dan meningkatkan pengucapan mereka sehingga mereka dapat berbicara dan hadir dengan percaya diri.

Pengenalan tujuan

Pengenalan niat: Gunakan ucapan ke teks dengan pemahaman bahasa percakapan untuk mendapatkan niat pengguna dari ucapan yang ditranskripsikan dan bertindak berdasarkan perintah suara.

Pengiriman dan kehadiran

Anda dapat menyebarkan fitur Azure AI Speech di cloud atau lokal.

With kontainer, Anda dapat mendekatkan layanan ke data Anda untuk kepatuhan, keamanan, atau alasan operasional lainnya.

Penyebaran layanan ucapan di sovereign cloud tersedia untuk beberapa entitas pemerintah dan mitra mereka. Misalnya, cloud Azure Government tersedia untuk entitas pemerintah AS dan mitra mereka. Microsoft Azure yang dioperasikan oleh cloud 21Vianet tersedia untuk organisasi dengan kehadiran bisnis di Tiongkok. Untuk informasi selengkapnya, lihat sovereign cloud.

Diagram showing where Speech service can be deployed and accessed.

Menggunakan Ucapan di aplikasi Anda

Speech Studio adalah sekumpulan alat berbasis UI untuk membangun dan mengintegrasikan fitur dari layanan Azure AI Speech di aplikasi Anda. Buat proyek di Speech Studio menggunakan pendekatan tanpa kode, lalu referensikan aset tersebut di aplikasi Anda menggunakan Speech SDK, Speech CLI, atau REST API.

Speech CLI adalah alat baris perintah untuk menggunakan layanan Ucapan tanpa menulis kode apa pun. Sebagian besar fitur di SDK Speech tersedia di Speech CLI, dan beberapa fitur lanjutan dan penyesuaian disederhanakan di Speech CLI.

SDK Ucapan memaparkan banyak kemampuan layanan Ucapan yang dapat digunakan untuk mengembangkan aplikasi yang mendukung ucapan. SDK Ucapan tersedia dalam banyak bahasa pemrograman dan di semua platform.

Dalam beberapa kasus, Anda tidak dapat atau tidak boleh menggunakan SDK Ucapan. Dalam kasus tersebut, Anda dapat menggunakan REST API untuk mengakses layanan Ucapan. Misalnya, gunakan REST API untuk transkripsi batch dan REST API pengenalan pembicara.

Mulai

Kami menawarkan mulai cepat dalam banyak bahasa pemrograman populer. Setiap mulai cepat dirancang untuk mengajarkan pola desain dasar dan membuat Anda menjalankan kode dalam waktu kurang dari 10 menit. Lihat daftar berikut untuk mulai cepat untuk setiap fitur:

Sampel kode

Sampel kode tersedia di GitHub untuk layanan Ucapan. Sampel ini mencakup skenario umum seperti membaca audio dari file atau aliran, pengenalan terus menerus dan satu bidikan, serta bekerja dengan model kustom. Gunakan tautan ini untuk melihat sampel SDK dan REST:

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.

Apa itu layanan Ucapan?

Skenario ucapan

Kemampuan ucapan

Ucapan ke Teks

Ucapan real time ke teks

Transkripsi batch

Teks ke ucapan

Terjemahan ucapan

Identifikasi bahasa

Pengenalan pembicara

Penilaian pengucapan

Pengenalan tujuan

Pengiriman dan kehadiran

Menggunakan Ucapan di aplikasi Anda

Mulai

Sampel kode

AI yang Bertanggung Jawab

Ucapan ke Teks

Penilaian Pengucapan

Suara neural kustom

Pengenalan Speaker

Langkah berikutnya

Sumber Daya Tambahan: