Bagikan melalui


Pertanyaan umum untuk Pengenalan Entitas Bernama Khusus

Temukan jawaban atas pertanyaan umum tentang konsep, dan skenario yang terkait dengan NER kustom dalam Bahasa Azure di Foundry Tools.

Bagaimana cara memulai layanan?

Untuk informasi selengkapnya, lihatmulai cepat kami atau cara membuat proyek.

Apa batas layanannya?

Untuk informasi selengkapnya, lihatbatas layanan.

Berapa banyak file yang diberi tag yang dibutuhkan?

Umumnya, data yang diberi tag yang beragam dan representatif menghasilkan hasil yang lebih baik, mengingat pemberian tag dilakukan dengan tepat, konsisten, dan lengkap. Tidak ada jumlah instans bertag yang ditetapkan agar model dapat berkinerja baik. Kinerja sangat tergantung pada skema Anda, dan ambiguitas skema Anda. Jenis entitas ambigu membutuhkan lebih banyak tag. Performa juga bergantung pada kualitas pemberian tag Anda. Jumlah instans yang disarankan untuk ditandai per entitas adalah 50.

Berapa lama waktu yang diperlukan untuk melatih model?

Proses pelatihan dapat memakan waktu lama. Sebagai perkiraan kasar, waktu pelatihan yang diharapkan untuk file dengan panjang gabungan 12.800.000 char adalah 6 jam.

Bagaimana cara membuat model kustom saya secara terprogram?

Catatan

Saat ini Anda hanya dapat membuat model menggunakan REST API atau Language Studio.

Anda dapat menggunakan REST API untuk membangun model kustom. Ikuti mulai cepat ini untuk mulai membuat proyek dan membuat model melalui API untuk contoh cara memanggil API Penulisan.

Saat sudah siap untuk mulai menggunakan model Anda untuk membuat prediksi, Anda dapat menggunakan REST API, atau pustaka klien.

Berikut adalah daftar tindakan yang Anda ambil dalam Microsoft Foundry:

  • Latih beberapa model pada himpunan data yang sama dalam satu proyek.
  • Lihat performa model Anda.
  • Sebarkan dan uji model Anda dan tambahkan atau hapus label dari data Anda.
  • Pilih bagaimana himpunan data Anda dibagi menjadi set pelatihan dan pengujian.

Data Anda dapat dibagi secara acak menjadi set pelatihan dan pengujian, tetapi ini berarti evaluasi model mungkin tidak didasarkan pada set pengujian yang sama, membuat hasilnya tidak dapat dibandingkan. Kami menyarankan agar Anda mengembangkan set pengujian Anda sendiri dan menggunakannya untuk mengevaluasi kedua model untuk mengukur peningkatan secara akurat.

Pastikan untuk meninjau batas layanan untuk memahami jumlah maksimum model terlatih yang diizinkan per proyek.

Apakah skor model yang rendah atau tinggi menjamin performa yang buruk atau baik dalam produksi?

Evaluasi model mungkin tidak selalu komprehensif. Cakupan tergantung pada faktor-faktor berikut:

  • Ukuran set pengujian. Jika set pengujian terlalu kecil, skor baik/buruk tidak mewakili performa aktual model. Juga jika jenis entitas tertentu hilang atau kurang diwakili dalam set pengujian Anda, jenis tersebut memengaruhi performa model.
  • Keragaman data Anda. Jika data Anda hanya menyertakan sejumlah skenario atau contoh teks terbatas yang Anda antisipasi dalam produksi, model Anda mungkin tidak mengalami setiap situasi yang mungkin terjadi. Akibatnya, model dapat berkinerja buruk ketika dihadapkan dengan skenario yang tidak dikenal.
  • Representasi di dalam data Anda. Jika himpunan data yang digunakan untuk melatih model tidak mewakili data yang akan diperkenalkan ke model dalam produksi, performa model sangat terpengaruh.

Untuk informasi selengkapnya, lihatpemilihan data dan desain skema.

Bagaimana cara meningkatkan performa model?

  • Lihat matriks kebingungan model. Jika Anda melihat bahwa jenis entitas tertentu sering kali tidak diprediksi dengan benar, pertimbangkan untuk menambahkan lebih banyak instans yang diberi tag untuk kelas ini.

Ketika dua jenis entitas yang berbeda sering diprediksi satu sama lain, itu menunjukkan bahwa skema tidak memiliki kejelasan. Untuk meningkatkan performa, Anda harus berpikir untuk menggabungkan kedua jenis entitas ini ke dalam satu jenis terpadu. Jika dua jenis entitas secara konsisten keliru satu sama lain selama prediksi, hasil ini menunjukkan ambiguitas dalam skema Anda. Menggabungkannya ke dalam satu jenis entitas dapat membantu meningkatkan akurasi model secara keseluruhan.

  • Meninjau prediksi kelompok uji. Jika salah satu jenis entitas memiliki lebih banyak instans yang diberi tag daripada yang lain, model Anda mungkin bias terhadap jenis ini. Tambahkan lebih banyak data ke jenis entitas lain atau hapus contoh dari jenis yang mendominasi.

  • Pelajari selengkapnya tentang pemilihan data dan desain skema.

  • Tinjau set pengujian Anda. Tinjau entitas yang diprediksi bersama entitas yang ditandai dan dapatkan pemahaman yang lebih jelas tentang akurasi model Anda. Perbandingan ini dapat membantu Anda menentukan apakah penyesuaian pada skema atau kumpulan tag diperlukan.

Mengapa saya mendapatkan hasil yang berbeda ketika saya melatih kembali model saya?

  • Saat melatih model, Anda dapat menentukan apakah Anda ingin data Anda dibagi secara acak menjadi set pelatihan dan pengujian. Jika Anda memilih untuk melanjutkan, tidak ada jaminan bahwa evaluasi model dilakukan pada set pengujian yang sama, yang berarti hasilnya mungkin tidak sebanding secara langsung. Dengan demikian, Anda berisiko mengevaluasi model pada set pengujian yang berbeda, sehingga tidak mungkin untuk membandingkan hasil dengan andal.

  • Jika Anda melatih kembali model yang sama, set pengujian Anda tetap sama, tetapi Anda mungkin melihat perubahan kecil pada prediksi yang dihasilkan oleh model. Masalah ini muncul karena model terlatih tidak memiliki ketahanan yang memadai. Hasil ini tergantung pada seberapa baik data Anda mewakili skenario yang berbeda, seberapa berbeda poin data, dan kualitas keseluruhan pemberian tag data Anda. Beberapa faktor memengaruhi performa model. Ketahanan model, kekhasan dan keragaman himpunan data, serta presisi dan keseragaman tag yang ditetapkan ke data semuanya memainkan peran penting. Untuk mencapai hasil yang optimal, Anda harus memastikan himpunan data Anda tidak hanya secara akurat mewakili domain target tetapi juga menawarkan contoh unik, dan bahwa semua tag diterapkan dengan konsistensi dan akurasi di seluruh data.

Bagaimana cara mendapatkan prediksi dalam bahasa yang berbeda?

Pertama, Anda harus mengaktifkan opsi multibahasa saat membuat proyek Anda atau Anda dapat mengaktifkannya nanti dari halaman pengaturan proyek. Setelah melatih dan menyebarkan model, Anda dapat mulai mengkueri model dalam beberapa bahasa. Anda bisa mendapatkan hasil yang bervariasi untuk bahasa yang berbeda. Untuk meningkatkan akurasi bahasa apa pun, tambahkan lebih banyak instans yang diberi tag ke proyek Anda dalam bahasa tersebut untuk memperkenalkan model terlatih ke lebih banyak sintaks dari bahasa tersebut.

Saya melatih model saya, tetapi saya tidak bisa mengujinya

Anda perlu menyebarkan model Anda sebelum dapat mengujinya.

Bagaimana cara menggunakan model terlatih saya untuk prediksi?

Setelah menyebarkan model Anda, panggil API prediksi, menggunakan REST API atau pustaka klien.

Privasi dan keamanan data

Data Anda hanya disimpan di akun Azure Storage. NER Kustom hanya dapat membaca selama proses pelatihan. Pengguna NER kustom memiliki kontrol penuh untuk melihat, mengekspor, atau menghapus konten pengguna apa pun baik melalui Foundry atau secara terprogram dengan menggunakan REST API. Untuk informasi selengkapnya, lihatData, privasi, dan keamanan untuk Bahasa

Bagaimana cara mengkloning proyek saya?

Untuk mengkloning proyek, Anda perlu menggunakan API ekspor untuk mengekspor aset proyek, lalu mengimpornya ke proyek baru. Lihat referensi REST API untuk kedua operasi.

Langkah berikutnya