Bagikan melalui


Catatan Transparansi

Penting

Terjemahan non-bahasa Inggris disediakan hanya untuk kenyamanan. Silakan lihat EN-US versi dokumen ini untuk versi pengikatan.

Sistem AI tidak hanya menangani teknologi, tetapi juga orang-orang yang akan menggunakannya, orang-orang yang akan terpengaruh olehnya, dan lingkungan tempat AI disebarkan. Menciptakan sistem yang sesuai dengan tujuan yang dimaksudkan membutuhkan pemahaman tentang cara kerja teknologi, kemampuan dan batasannya, serta cara mencapai performa terbaik.

Microsoft menyediakan Catatan Transparansi untuk membantu Anda memahami cara kerja teknologi AI kami. Termasuk pilihan yang dapat diambil pemilik sistem yang memengaruhi performa dan perilaku sistem, dan pentingnya memikirkan keseluruhan sistem, termasuk teknologi, manusia, dan lingkungan. Anda dapat menggunakan Catatan Transparansi saat mengembangkan atau menyebarkan sistem Anda sendiri, atau membagikannya dengan orang-orang yang akan menggunakan atau terpengaruh oleh sistem Anda.

Catatan Transparansi adalah bagian dari upaya yang lebih luas di Microsoft untuk menerapkan prinsip AI kami. Untuk mengetahui selengkapnya, lihat Prinsip AI Microsoft.

Pengantar Penilaian Pengucapan

API Penilaian Pengucapan mengambil input audio untuk mengevaluasi pengucapan ucapan dan memberikan umpan balik kepada pembicara tentang akurasi, kefasihan, dan kelengkapan audio lisan. Fitur Penilaian Pengucapan juga mencakup umpan balik yang lebih komprehensif tentang berbagai aspek prosodi ucapan, penggunaan kosakata, kebenaran tata bahasa, dan pemahaman topik, memberi Anda evaluasi terperinci tentang keterampilan bahasa Anda. Penilaian terstruktur dan tidak terstruktur didukung, sehingga memudahkan Anda untuk menilai pengucapan dan kecakapan bahasa Anda. Penilaian Pengucapan mendukung berbagai bahasa.

Dengan Penilaian Pengucapan, pelajar bahasa dapat berlatih, mendapatkan umpan balik instan, dan meningkatkan pengucapan mereka sehingga mereka dapat berbicara dan hadir dengan percaya diri. Pendidik dapat menggunakan Penilaian Pengucapan untuk mengevaluasi pengucapan beberapa pembicara secara real time.

Dasar-dasar Penilaian Pengucapan

API Penilaian Pengucapan menawarkan hasil evaluasi ucapan menggunakan pendekatan berbasis pembelajaran mesin yang selaras dengan penilaian ucapan yang dilakukan oleh pakar asli. Ini memberikan umpan balik yang berharga tentang pengucapan, kefasihan, prosody, penggunaan kosakata, kebenaran tata bahasa, dan pemahaman topik, membantu Anda meningkatkan keterampilan bahasa mereka dan dengan percaya diri berkomunikasi dalam bahasa baru. Model Penilaian Pengucapan dilatih dengan 100.000+ jam data ucapan dari penutur asli. Ini dapat memberikan hasil yang akurat ketika orang melewatkan, mengulangi, atau menambahkan frasa dibandingkan dengan teks referensi. Ini juga memungkinkan parameter konfigurasi yang kaya untuk mendukung fleksibilitas dalam menggunakan API, seperti mengatur Granularitas untuk mengubah granularitas informasi dalam evaluasi. (Untuk informasi selengkapnya, lihat selengkapnya dalam kode sampel.)

Penilaian Pengucapan mengevaluasi beberapa aspek pengucapan dan konten: akurasi, kefasihan, kelengkapan, prosody, penggunaan kosakata, kebenaran tata bahasa, dan pemahaman topik. Ini juga memberikan evaluasi pada beberapa tingkat granularitas dan mengembalikan skor akurasi untuk fonem tertentu, suku kata, kata, kalimat, atau bahkan seluruh artikel. Untuk informasi selengkapnya, lihat cara menggunakan Speech SDK untuk fitur Penilaian Pengucapan.

Tabel berikut ini menjelaskan hasil utama. Untuk informasi selengkapnya, lihat parameter respons lengkap. Dengan menggunakan teknik pemrosesan bahasa alami (NLP) dan pengaturan EnableMiscue , Penilaian Pengucapan dapat mendeteksi kesalahan seperti tambahan, hilang, atau kata berulang jika dibandingkan dengan teks referensi. Informasi ini membantu mendapatkan penilaian yang lebih akurat untuk digunakan sebagai informasi diagnosis. Kemampuan ini berguna untuk paragraf teks yang lebih panjang.

Pengaturan Deskripsi
AccuracyScore Akurasi pelafalan ucapan. Akurasi menunjukkan seberapa dekat fonem cocok dengan pengucapan penutur asli. Skor akurasi suku kata, kata, dan teks lengkap dikumpulkan dari skor akurasi tingkat fonem, dan disempurnakan dengan tujuan penilaian.
FluencyScore Kefasihan ucapan yang diberikan. Kefasihan menunjukkan seberapa dekat ucapan cocok dengan penggunaan jeda diam di antara kata-kata penutur asli.
CompletenessScore Kelengkapan ucapan, dihitung dengan rasio kata yang diucapkan ke teks referensi input.
ProsodyScore Prosodi dari tuturan yang diberikan. Prosody menunjukkan betapa alaminya ucapan yang diberikan, termasuk stres, intonasi, kecepatan berbicara, dan ritme.
PronScore Skor keseluruhan menunjukkan kualitas pengucapan dari ucapan yang diberikan. Ini diambil dari AccuracyScore, FluencyScore, dan CompletenessScore dengan bobot.
ErrorType Nilai ini menunjukkan apakah kata dihilangkan, disisipkan, diucapkan dengan buruk, disisipkan dengan tidak benar dengan jeda, kehilangan jeda pada tanda baca, atau naik, jatuh, atau datar secara monoton pada ucapan, dibandingkan dengan ReferenceText. Nilai yang mungkin adalah None (berarti tidak ada kesalahan pada kata ini), Omission, , Insertion, MispronunciationUnexpectedBreak, MissingBreak, dan Monotone.

Set parameter lain yang dikembalikan oleh Penilaian Pengucapan adalah Offset dan Durasi (disebut bersama-sama sebagai "tanda waktu") Tanda waktu ucapan dikembalikan dalam format JSON terstruktur. Penilaian Pengucapan dapat menghitung kesalahan pengucapan pada setiap fonem. Penilaian Pengucapan juga dapat menandai kesalahan ke tanda waktu tertentu dalam audio input. Pelanggan yang mengembangkan aplikasi dapat menggunakan sinyal untuk menawarkan jalur pembelajaran untuk membantu siswa fokus pada kesalahan dengan berbagai cara. Misalnya, aplikasi dapat menyoroti ucapan asli, membalas audio untuk membandingkannya dengan pengucapan standar, atau merekomendasikan kata-kata serupa untuk dipraktikkan.

Pengaturan Deskripsi
Offset Waktu (dalam unit 100 nanodetik) saat ucapan yang dikenali dimulai dalam aliran audio.
Durasi Durasi (dalam unit 100-nanodetik) ucapan yang dikenali dalam aliran audio.

Contoh kasus penggunaan

Penilaian Pengucapan dapat digunakan untuk pembelajaran jarak jauh, praktik ujian, atau skenario lain yang menuntut umpan balik pengucapan. Contoh berikut adalah kasus penggunaan yang diterapkan atau yang telah kami rancang untuk pelanggan dengan menggunakan Penilaian Pengucapan.

  • Penyedia layanan pendidikan: Penyedia dapat membangun aplikasi dengan menggunakan Penilaian Pengucapan untuk membantu siswa mempraktikkan pembelajaran bahasa dari jarak jauh dengan umpan balik real-time. Kasus penggunaan ini khas ketika aplikasi perlu mendukung umpan balik real-time. Kami mendukung unggahan streaming pada file audio untuk umpan balik segera.
  • Pendidikan dalam game: Pengembang aplikasi, misalnya, dapat membangun aplikasi pembelajaran bahasa dengan menggabungkan pelajaran komprehensif dalam game dengan teknologi ucapan canggih untuk membantu anak-anak belajar bahasa Inggris. Program ini dapat mencakup berbagai keterampilan bahasa Inggris, seperti berbicara, membaca, dan mendengarkan, dan juga melatih anak-anak tentang tata bahasa dan kosakata, dengan Penilaian Pengucapan yang digunakan untuk mendukung anak-anak saat mereka belajar berbicara bahasa Inggris. Beberapa format pembelajaran ini memastikan bahwa anak-anak belajar bahasa Inggris dengan mudah berdasarkan gaya belajar yang menyenangkan.
  • Pendidikan dalam aplikasi komunikasi: Kemajuan Membaca Microsoft Teams membantu guru dalam mengevaluasi tugas berbicara siswa dengan bantuan deteksi otomatis untuk kelalaian, penyisipan, dan kesalahan penulisan. Ini juga memungkinkan siswa untuk berlatih pengucapan dengan lebih nyaman sebelum mereka mengirimkan pekerjaan rumah mereka. Microsoft Teams Speaker Progress sebagai fitur dalam Akselerator Pembelajaran juga dapat membantu mendukung siswa dalam mengembangkan keterampilan presentasi dan berbicara di depan umum.

Pertimbangan saat memilih kasus penggunaan lainnya

Pembelajaran online telah berkembang pesat saat sekolah dan organisasi beradaptasi dengan cara baru untuk menghubungkan dan metode pendidikan. Teknologi ucapan dapat memainkan peran penting dalam membuat pembelajaran jarak jauh lebih menarik dan dapat diakses oleh siswa dari semua latar belakang. Dengan layanan Azure AI, pengembang dapat dengan cepat menambahkan kemampuan ucapan ke aplikasi, menghadirkan pembelajaran online.

Salah satu elemen utama dalam pembelajaran bahasa adalah meningkatkan keterampilan pengucapan. Bagi pelajar bahasa baru, berlatih pengucapan dan mendapatkan umpan balik tepat waktu sangat penting untuk menjadi pembicara yang lebih fasih. Bagi penyedia solusi yang berusaha mendukung pelajar atau siswa dalam pembelajaran bahasa, kemampuan untuk berlatih kapan saja, di mana saja dengan menggunakan Penilaian Pengucapan akan cocok untuk skenario ini. Ini juga dapat diintegrasikan sebagai asisten virtual untuk guru dan membantu meningkatkan efisiensi mereka.

Rekomendasi berikut berkaitan dengan kasus penggunaan di mana Penilaian Pengucapan harus digunakan dengan hati-hati:

  • Sertakan manusia dalam putaran untuk skenario pemeriksaan formal apa pun: Sistem Penilaian Pengucapan didukung oleh sistem AI, dan faktor eksternal seperti kualitas suara dan kebisingan latar belakang dapat memengaruhi penilaian. Seorang human-in-the-loop dalam pemeriksaan formal memastikan hasil penilaian sesuai dengan harapan.
  • Pertimbangkan untuk menggunakan ambang batas yang berbeda per skenario: Saat ini, skor Penilaian Pengucapan hanya mewakili jarak kesamaan dengan penutur asli yang digunakan untuk melatih model. Jarak kesamaan tersebut dapat dipetakan ke skenario yang berbeda dengan kondisi berbasis aturan atau penghitungan tertimbang untuk membantu memberikan umpan balik pengucapan. Misalnya, metode penilaian untuk pembelajaran anak-anak mungkin tidak seketat itu untuk pembelajaran dewasa. Pertimbangkan untuk menetapkan ambang deteksi kesalahan pengucapan yang lebih tinggi untuk pembelajaran dewasa.
  • Pertimbangkan kemampuan untuk memperhitungkan kesalahan: Ketika skenario melibatkan membaca paragraf panjang, pengguna cenderung merasa sulit untuk mengikuti teks referensi tanpa membuat kesalahan. Kesalahan ini, termasuk kelalaian, penyisipan, dan pengulangan, dihitung sebagai kesalahan. Dengan EnableMiscue diaktifkan, kata-kata yang diucapkan akan dibandingkan dengan teks referensi, dan akan ditandai dengan Kelalaian, Penyisipan, Pengulangan berdasarkan perbandingan.

Pertimbangan hukum dan peraturan: Organisasi perlu mengevaluasi potensi kewajiban hukum dan peraturan tertentu saat menggunakan layanan dan solusi AI apa pun, yang mungkin tidak sesuai untuk digunakan di setiap industri atau skenario. Selain itu, layanan atau solusi AI tidak dirancang untuk dan tidak dapat digunakan dengan cara yang dilarang dalam ketentuan layanan yang berlaku dan kode etik yang relevan.