Mengkustomisasi model ucapan

Artikel
03/22/2024

Penting

Karena pengumuman penghentian Azure Media Services, Azure AI Video Indexer mengumumkan penyesuaian fitur Azure AI Video Indexer. Lihat Perubahan yang terkait dengan penghentian Azure Media Service (AMS) untuk memahami apa artinya ini untuk akun Azure AI Video Indexer Anda. Lihat panduan Mempersiapkan penghentian AMS: Pembaruan VI dan migrasi.

Catatan

Kustomisasi model ucapan, termasuk pelatihan pengucapan, hanya didukung di akun uji coba Video Indexer Azure dan akun Resource Manager. Ini tidak didukung di akun klasik. Untuk panduan tentang cara memperbarui jenis akun Anda tanpa biaya, lihat Memperbarui akun Azure AI Video Indexer Anda. Untuk panduan tentang menggunakan pengalaman bahasa kustom, lihat Menyesuaikan Model bahasa.

Melalui integrasi Azure AI Video Indexer dengan layanan Azure AI Speech, Model Bahasa Universal digunakan sebagai model dasar yang dilatih dengan data milik Microsoft dan mencerminkan bahasa lisan yang umum digunakan. Model dasar telah dilatih sebelumnya dengan dialek dan fonetik yang mewakili berbagai domain umum. Model dasar bekerja dengan baik dalam sebagian besar skenario pengenalan ucapan.

Namun, terkadang transkripsi model dasar tidak secara akurat menangani beberapa konten. Dalam situasi ini, model ucapan yang disesuaikan dapat digunakan untuk meningkatkan pengenalan kosakata atau pengucapan khusus domain yang khusus untuk konten Anda dengan memberikan data teks untuk melatih model. Melalui proses pembuatan dan adaptasi model kustomisasi ucapan, konten Anda dapat ditranskripsikan dengan benar. Tidak ada biaya tambahan untuk menggunakan kustomisasi ucapan Video Indexers.

Kapan menggunakan model ucapan yang disesuaikan?

Jika konten Anda berisi terminologi khusus industri atau saat meninjau hasil transkripsi Video Indexer, Anda melihat ketidakakuratan, Anda dapat membuat dan melatih model ucapan kustom untuk mengenali istilah dan meningkatkan kualitas transkripsi. Mungkin hanya berguna untuk membuat model kustom jika kata dan nama yang relevan diharapkan muncul berulang kali dalam konten yang Anda rencanakan untuk diindeks. Melatih model terkadang merupakan proses berulang dan Anda mungkin menemukan bahwa setelah pelatihan awal, hasilnya masih dapat menggunakan peningkatan dan akan mendapat manfaat dari pelatihan tambahan, lihat bagian Cara Meningkatkan model kustom Anda untuk panduan.

Namun, jika Anda melihat beberapa kata atau nama yang salah ditranskrip dalam transkrip, model ucapan kustom mungkin tidak diperlukan, terutama jika kata atau nama tidak diharapkan umum digunakan dalam konten yang Anda rencanakan untuk diindeks di masa mendatang. Anda hanya dapat mengedit dan memperbaiki transkrip di situs web Video Indexer (lihat Menampilkan dan memperbarui transkripsi di situs web Azure AI Video Indexer) dan tidak perlu mengatasinya melalui model ucapan kustom.

Untuk daftar bahasa yang mendukung model kustom dan pengucapan, lihat kolom Kustomisasi dan Pengucapan dari tabel dukungan bahasa dalam Dukungan bahasa di Azure AI Video Indexer.

Melatih himpunan data

Saat mengindeks video, Anda dapat menggunakan model ucapan yang disesuaikan untuk meningkatkan transkripsi. Model dilatih dengan memuatnya dengan himpunan data yang dapat menyertakan data teks biasa dan data pengucapan.

Teks yang digunakan untuk menguji dan melatih model kustom harus menyertakan sampel dari berbagai set konten dan skenario yang ingin Anda kenali model Anda. Pertimbangkan faktor-faktor berikut saat membuat dan melatih himpunan data Anda:

Sertakan teks yang mencakup jenis pernyataan verbal yang dibuat pengguna Anda saat berinteraksi dengan model Anda. Misalnya, jika konten Anda terutama terkait dengan olahraga, latih model dengan konten yang berisi terminologi dan materi subjek yang terkait dengan olahraga.
Sertakan semua varian ucapan yang Anda perlu model Anda kenali. Banyak faktor dapat bervariasi ucapan, termasuk aksen, dialek, dan pencampuran bahasa.
Hanya sertakan data yang relevan dengan konten yang ingin Anda mentranskripsikan. Termasuk data lain dapat membahayakan kualitas pengenalan secara keseluruhan.

Jenis himpunan data

Ada dua jenis himpunan data yang dapat Anda gunakan untuk penyesuaian. Untuk membantu menentukan himpunan data mana yang akan digunakan untuk mengatasi masalah Anda, lihat tabel berikut:

Gunakan huruf besar	Jenis Data
Meningkatkan akurasi pengenalan pada kosakata dan tata bahasa khusus industri, seperti terminologi medis atau jargon IT.	Teks biasa
Menentukan bentuk kata atau istilah fonetik dan ditampilkan yang memiliki pengucapan tidak standar, seperti nama produk atau akronim.	Pengucapan

Data teks biasa untuk pelatihan

Himpunan data termasuk kalimat teks biasa dari teks terkait dapat digunakan untuk meningkatkan pengenalan kata dan frasa khusus domain. Kalimat teks terkait dapat mengurangi kesalahan substitusi yang terkait dengan kesalahan pengenalan kata umum dan kata khusus domain dengan menunjukkannya dalam konteks. Kata-kata khusus domain dapat berupa kata-kata yang tidak biasa atau dibuat-buat, tetapi pengucapannya harus mudah dikenali.

Praktik terbaik untuk himpunan data teks biasa

Berikan kalimat terkait domain dalam satu file teks. Alih-alih menggunakan kalimat lengkap, Anda dapat mengunggah daftar kata. Namun, meskipun ini menambahkannya ke kosakata, itu tidak mengajarkan sistem bagaimana kata-kata biasanya digunakan. Dengan memberikan ujaran penuh atau parsial (kalimat atau frasa hal-hal yang cenderung dikatakan pengguna), model bahasa dapat mempelajari kata-kata baru dan cara penggunaannya. Model bahasa kustom merupakan hal yang baik tidak hanya untuk menambahkan kata-kata baru ke sistem, tetapi juga untuk menyesuaikan kemungkinan kata-kata yang diketahui untuk aplikasi Anda. Memberikan ujaran penuh membantu sistem belajar lebih baik.
Gunakan data teks yang dekat dengan ucapan lisan yang diharapkan. Ucapan tidak harus lengkap atau benar secara tata bahasa, tetapi harus secara akurat mencerminkan masukan lisan yang Anda harapkan dikenali oleh model.
Cobalah untuk memiliki setiap kalimat atau kata kunci pada baris terpisah.
Untuk menambah bobot suatu istilah seperti nama produk, tambahkan beberapa kalimat yang menyertakan istilah tersebut.
Untuk frasa umum yang digunakan dalam konten Anda, memberikan banyak contoh berguna karena memberi tahu sistem untuk mendengarkan istilah-istilah ini. 
Hindari menyertakan simbol yang tidak biasa (~, # @ % &) saat dibuang. Kalimat di mana mereka muncul juga dibuang.
Hindari menempatkan input yang terlalu besar, seperti ratusan ribu kalimat, karena melakukannya mencairkan efek peningkatan.

Gunakan tabel ini untuk memastikan bahwa file himpunan data teks biasa Anda diformat dengan benar:

Properti	Nilai
Pengodean teks	UTF-8 BOM
Jumlah ungkapan per baris	1
Ukuran file maksimal	200 MB

Cobalah untuk mengikuti panduan ini dalam file teks biasa Anda:

Hindari mengulangi karakter, kata, atau grup kata lebih dari tiga kali, seperti "ya ya ya" karena layanan mungkin menghilangkan baris dengan terlalu banyak pengulangan.
Jangan gunakan karakter khusus atau karakter UTF-8 di atas U+00A1.
URI ditolak.
Untuk beberapa bahasa seperti Jepang atau Korea, mengimpor data teks dalam jumlah besar dapat memakan waktu lama atau hingga kehabisan waktu. Pertimbangkan untuk membagi himpunan data menjadi beberapa file teks dengan masing-masing hingga 20.000 baris.

Data pengucapan untuk latihan

Anda dapat menambahkan ke model ucapan kustom Anda himpunan data pengucapan kustom untuk meningkatkan pengenalan kata, frasa, atau nama yang salah diucapkan.

Himpunan data pengucapan perlu menyertakan bentuk lisan kata atau frasa serta formulir yang ditampilkan yang dikenali. Bentuk lisan adalah urutan fonetik yang dieja, seperti "Triple A". Ini dapat terdiri dari huruf, kata, suku kata, atau kombinasi ketiganya. Formulir yang ditampilkan yang dikenali adalah bagaimana Anda ingin kata atau frasa muncul dalam transkripsi. Tabel ini mencakup beberapa contoh:

Bentuk yang dikenali dan ditampilkan	Bentuk lisan
3CPO	tiga c p o
CNTK	c n t k
AAA	Tiga Kali Lipat A

Anda menyediakan himpunan data pengucapan dalam satu file teks. Sertakan ungkapan lisan dan pengucapan kustom untuk masing-masing. Setiap baris dalam file harus dimulai dengan bentuk yang dikenali, lalu karakter tab, dan kemudian urutan fonetik yang dibatasi ruang.

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e

Pertimbangkan hal berikut saat membuat dan melatih himpunan data pengucapan:

Tidak disarankan untuk menggunakan file pengucapan kustom untuk mengubah pengucapan kata-kata umum.

Jika ada beberapa variasi tentang bagaimana kata atau nama salah ditranskripsikan, pertimbangkan untuk menggunakan beberapa atau semuanya saat melatih himpunan data pengucapan. Misalnya, jika Robert disebutkan lima kali dalam video dan ditranskripsikan sebagai Robort, Ropert, dan perampok. Anda dapat mencoba menyertakan semua variasi dalam file seperti dalam contoh berikut tetapi berhati-hatilah ketika berlatih dengan kata-kata aktual seperti perampok seolah-olah perampok disebutkan dalam video, itu ditranskripsikan sebagai Robert.

Robert Roport
Robert Ropert
Robert Robbers

Model pengucapan tidak dimaksudkan untuk mengatasi akronim. Misalnya, jika Anda ingin Dokter ditranskripsikan sebagai Dr., ini tidak dapat dicapai melalui model pengucapan.

Lihat tabel berikut untuk memastikan bahwa file himpunan data pengucapan Anda valid dan diformat dengan benar.

Properti	Nilai
Pengodean teks	UTF-8 BOM (ANSI juga didukung untuk bahasa Inggris)
Jumlah pengucapan per baris	1
Ukuran file maksimal	1 MB (1 KB untuk tingkat gratis)

Cara meningkatkan model kustom Anda

Melatih model pengucapan dapat menjadi proses berulang, karena Anda mungkin mendapatkan lebih banyak pengetahuan tentang pengucapan subjek setelah pelatihan awal dan evaluasi hasil model Anda. Karena model yang ada tidak dapat diedit atau dimodifikasi, melatih model secara berulang memerlukan pembuatan dan pengunggahan himpunan data dengan informasi tambahan serta melatih model kustom baru berdasarkan himpunan data baru. Anda kemudian akan mengindeks ulang file media dengan model ucapan kustom baru.

Contoh:

Katakanlah Anda berencana mengindeks konten olahraga dan mengantisipasi masalah akurasi transkrip dengan terminologi olahraga tertentu serta dalam nama pemain dan pelatih. Sebelum mengindeks, Anda telah membuat model ucapan dengan himpunan data teks biasa dengan konten yang berisi terminologi olahraga yang relevan dan himpunan data pengucapan dengan beberapa nama pemain dan pelatih. Anda mengindeks beberapa video menggunakan model ucapan kustom dan saat meninjau transkrip yang dihasilkan, temukan bahwa saat terminologi ditranskripsikan dengan benar, banyak nama tidak. Anda dapat mengambil langkah-langkah berikut untuk meningkatkan performa di masa mendatang:

Tinjau transkrip dan perhatikan semua nama yang salah ditranskripsikan. Mereka bisa jatuh ke dalam dua kelompok:
- Nama tidak ada dalam file pengucapan.
- Nama dalam file pengucapan tetapi masih salah ditranskripsikan.
Buat file himpunan data baru. Unduh file himpunan data pengucapan atau ubah asli yang disimpan secara lokal. Untuk grup A, tambahkan nama baru ke file dengan cara mereka salah ditranskripsikan (Michael Mikel). Untuk grup B, tambahkan baris tambahan dengan setiap baris yang memiliki nama yang benar dan contoh unik tentang bagaimana baris tersebut salah ditranskripsikan. Contohnya:

Stephen Steven
Stephen Steafan
Stephen Steevan
Unggah file ini sebagai file himpunan data baru.
Buat model ucapan baru dan tambahkan himpunan data teks biasa asli dan file himpunan data pengucapan baru.
Mengindeks ulang video dengan model ucapan baru.
Jika diperlukan, ulangi langkah 1-5 hingga hasilnya memuaskan.