Bagikan melalui


Mengkustomisasi Model bahasa dengan Pengindeks Video Azure AI

Peringatan

Selama setahun terakhir, Azure AI Video Indexer (VI) mengumumkan penghapusan dependensinya pada Azure Media Services (AMS) karena penghentiannya. Penyesuaian fitur dan perubahan diumumkan dan panduan migrasi disediakan.

Tenggat waktu untuk menyelesaikan migrasi adalah 30 Juni 2024. VI telah memperpanjang tenggat waktu pembaruan/migrasi sehingga Anda dapat memperbarui akun VI Dan ikut serta dalam migrasi aset AMS VI hingga 31 Agustus 2024.

Namun, setelah 30 Juni, jika Anda belum memperbarui akun VI, Anda tidak akan dapat mengindeks video baru atau tidak akan dapat memutar video apa pun yang belum dimigrasikan. Jika Anda memperbarui akun setelah 30 Juni, Anda dapat segera melanjutkan pengindeksan tetapi Anda tidak akan dapat memutar video yang diindeks sebelum pembaruan akun hingga dimigrasikan melalui migrasi AMS VI.

Azure AI Video Indexer mendukung pengenalan ucapan otomatis melalui integrasi dengan Layanan Ucapan Kustom Microsoft. Anda dapat menyesuaikan Model bahasa dengan mengunggah teks adaptasi. Teks ini berasal dari domain yang kosakatanya ingin Anda gunakan mesin untuk beradaptasi. Setelah Anda melatih model Anda, kata-kata baru yang muncul dalam teks adaptasi dikenali, dengan asumsi pengucapan default, dan Model bahasa mempelajari urutan kata-kata baru yang mungkin. Lihat daftar bahasa yang didukung oleh Azure AI Video Indexer di langue yang didukung.

Misalnya, "Kubernetes" (dalam konteks layanan Azure Kubernetes), adalah kata yang sangat spesifik. Karena kata ini baru untuk Azure AI Video Indexer, kata ini dikenal sebagai "komunitas". Anda perlu melatih model untuk mengenalinya sebagai "Kubernetes". Dalam kasus lain, kata-kata ada, tetapi Model bahasa tidak mengharapkannya muncul dalam konteks tertentu. Misalnya, "layanan kontainer" bukan urutan 2 kata yang akan dikenali oleh model Bahasa yang tidak dispesialisasikan sebagai sekumpulan kata tertentu.

Ada dua cara untuk menyesuaikan model bahasa:

  • Opsi 1: Edit transkrip yang dihasilkan oleh Azure AI Video Indexer. Dengan mengedit dan memperbaiki transkrip, Anda melatih model bahasa untuk memberikan hasil yang ditingkatkan di masa mendatang.
  • Opsi 2: Unggah file teks untuk melatih model bahasa. File unggahan dapat berisi daftar kata-kata seperti yang Anda inginkan muncul dalam transkrip Video Indexer atau kata-kata yang relevan yang disertakan secara alami dalam kalimat dan paragraf. Karena hasil yang lebih baik dicapai dengan pendekatan terakhir, disarankan agar file unggahan berisi kalimat atau paragraf lengkap yang terkait dengan konten Anda.

Penting

Jangan sertakan dalam file unggahan kata atau kalimat seperti yang saat ini salah ditranskripsikan (misalnya, "komunitas") karena ini akan meniadakan dampak yang dimaksudkan. Hanya sertakan kata-kata seperti yang Anda inginkan untuk muncul (misalnya, "Kubernetes").

Praktik terbaik untuk model Bahasa kustom

Azure AI Video Indexer belajar berdasarkan probabilitas kombinasi kata, jadi untuk mempelajari yang terbaik:

  • Berikan secara cukup contoh kalimat yang nyata seperti yang akan diucapkan.
  • Letakkan hanya satu kalimat per baris, tidak lebih. Jika tidak, sistem akan mempelajari probabilitas di seluruh kalimat.
  • Tidak apa-apa untuk menempatkan satu kata sebagai kalimat untuk meningkatkan kata terhadap orang lain, tetapi sistem belajar terbaik dari kalimat lengkap.
  • Saat memperkenalkan kata-kata atau akronim baru, jika memungkinkan, berikan sebanyak mungkin contoh penggunaan dalam kalimat lengkap untuk memberikan konteks sebanyak mungkin pada sistem.
  • Cobalah untuk menempatkan beberapa opsi adaptasi, dan lihatlah bagaimana mereka bekerja untuk Anda.
  • Hindari pengulangan kalimat yang sama persis beberapa kali. Hal itu bisa menciptakan bias terhadap {i>input
  • Hindari menyertakan simbol yang jarang (~, # @ % &) karena akan dibuang. Kalimat di mana mereka muncul juga akan dibuang.
  • Hindari memasukkan {i>input