Özel adlandırılmış varlık tanıma modelleri için değerlendirme ölçümleri

Veri kümeniz iki bölüme ayrılır: eğitim kümesi ve test için bir küme. Eğitim kümesi modeli eğitmek için kullanılırken, test kümesi model performansını ve değerlendirmesini hesaplamak için eğitimden sonra model için bir test olarak kullanılır. Test kümesi, modelin yeni veriler üzerinde test edilmiş olduğundan emin olmak için eğitim süreci aracılığıyla modele tanıtılmaz.

Eğitim başarıyla tamamlandıktan sonra model değerlendirmesi otomatik olarak tetikleniyor. Değerlendirme işlemi, test kümesindeki belgeler için kullanıcı tanımlı varlıkları tahmin etmek için eğitilen modeli kullanarak başlar ve bunları sağlanan veri etiketleriyle karşılaştırır (bu da bir doğruluk temeli oluşturur). Modelin performansını gözden geçirebilmeniz için sonuçlar döndürülür. Değerlendirme için özel NER aşağıdaki ölçümleri kullanır:

  • Duyarlık: Modelinizin ne kadar hassas/doğru olduğunu ölçer. Doğru tanımlanmış pozitifler (gerçek pozitifler) ile tüm tanımlanan pozitifler arasındaki orandır. Duyarlık ölçümü, tahmin edilen varlıklardan kaçının doğru etiketlendiğini gösterir.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • Hatırlayın: Modelin gerçek pozitif sınıfları tahmin etme yeteneğini ölçer. Bu, tahmin edilen gerçek pozitifler ile gerçekte etiketlenenler arasındaki orandır. Geri çağırma ölçümü, tahmin edilen varlıklardan kaçının doğru olduğunu gösterir.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • F1 puanı: F1 puanı Duyarlık ve Geri Çağırma işlevinin bir işlevidir. Duyarlık ve Yakalama arasında bir denge aradığınızda bu gereklidir.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

Not

Duyarlık, geri çağırma ve F1 puanı her varlık için ayrı ayrı (varlık düzeyi değerlendirme) ve model için topluca (model düzeyinde değerlendirme) hesaplanır.

Model düzeyi ve varlık düzeyi değerlendirme ölçümleri

Duyarlık, yakalama ve F1 puanı her varlık için ayrı ayrı (varlık düzeyinde değerlendirme) ve model için topluca (model düzeyinde değerlendirme) hesaplanır.

Duyarlık, yakalama ve değerlendirme tanımları hem varlık düzeyi hem de model düzeyi değerlendirmeleri için aynıdır. Ancak , Gerçek Pozitifler, Hatalı Pozitifler ve Hatalı Negatifler için sayımlar farklılık gösterebilir. Örneğin, aşağıdaki metni göz önünde bulundurun.

Örnek

Bu sözleşmenin ilk partisi John Smith, 5678 Main Rd., Frederick city, State of Nebraska'da ikamet eder. İkinci parti ise Forrest Ray, 123-345 Integer Rd., City of Corona, State of New Mexico'da ikamet eder. Ayrıca 7890 River Road, Colorado Springs, State of Colorado'da yaşayan Fannie Thomas da vardır.

Bu metinden varlıkları ayıklayan model aşağıdaki tahminlere sahip olabilir:

Varlık Tahmin edilen Gerçek tür
John Smith Kişi Kişi
Frederick Kişi Şehir
Forrest Şehir Kişi
Fannie Thomas Kişi Kişi
Colorado Springs Şehir Şehir

Kişi varlığı için varlık düzeyinde değerlendirme

Model, kişi varlığı için aşağıdaki varlık düzeyinde değerlendirmeye sahip olacaktır:

Anahtar Count Açıklama
Doğru Pozitif 2 John Smith ve Fannie Thomaskişi olarak doğru tahmin edildi.
Yanlış Pozitif 1 Frederick şehir olması gerekirken yanlış şekilde insan olarak tahmin edildi.
Yanlış Negatif 1 Forrest'ininsan olması gerekirken şehir olarak yanlış tahmin edilmişti.
  • Duyarlık: #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67
  • Geri çekme: #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67
  • F1 Puanı: 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

Şehir varlığı için varlık düzeyinde değerlendirme

Model, şehir varlığı için aşağıdaki varlık düzeyinde değerlendirmeye sahip olacaktır:

Anahtar Count Açıklama
Doğru Pozitif 1 Colorado Springsşehir olarak doğru tahmin edildi.
Yanlış Pozitif 1 Forrest'ininsan olması gerekirken şehir olarak yanlış tahmin edilmişti.
Yanlış Negatif 1 Frederick şehir olması gerekirken yanlış şekilde insan olarak tahmin edildi.
  • Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
  • Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
  • F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Kolektif model için model düzeyinde değerlendirme

Model tamamen model için aşağıdaki değerlendirmeye sahip olacaktır:

Anahtar Count Açıklama
Doğru Pozitif 3 John Smith ve Fannie Thomaskişi olarak doğru tahmin edildi. Colorado Springsşehir olarak doğru tahmin edildi. Bu, tüm varlıklar için gerçek pozitiflerin toplamıdır.
Yanlış Pozitif 2 Forrest'ininsan olması gerekirken şehir olarak yanlış tahmin edilmişti. Frederick şehir olması gerekirken yanlış şekilde insan olarak tahmin edildi. Bu, tüm varlıklar için hatalı pozitiflerin toplamıdır.
Yanlış Negatif 2 Forrest'ininsan olması gerekirken şehir olarak yanlış tahmin edilmişti. Frederick şehir olması gerekirken yanlış şekilde insan olarak tahmin edildi. Bu, tüm varlıklar için hatalı negatiflerin toplamıdır.
  • Hassas = #True_Positive / (#True_Positive + #False_Positive) = 3 / (3 + 2) = 0.6
  • Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 3 / (3 + 2) = 0.6
  • F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.6 * 0.6) / (0.6 + 0.6) = 0.6

Varlık düzeyi değerlendirme ölçümlerini yorumlama

Peki belirli bir varlık için yüksek duyarlık veya yüksek yakalamaya sahip olmak gerçekte ne anlama gelir?

Geri çağırma Duyarlık Yorum
Yüksek Yüksek Bu varlık model tarafından iyi işlenir.
Düşük Yüksek Model bu varlığı her zaman ayıklayamaz, ancak ayıkladığında yüksek güvenle olur.
Yüksek Düşük Model bu varlığı iyi ayıklar, ancak bazen başka bir tür olarak ayıklandığından düşük güvene sahip olur.
Düşük Düşük Genellikle ayıklanmadığından bu varlık türü model tarafından kötü işlenir. Olduğunda, yüksek güvene sahip değildir.

Rehber

Modelinizi eğitdikten sonra modelin nasıl geliştirileceğine ilişkin bazı yönergeler ve öneriler görürsünüz. Kılavuz bölümündeki tüm noktaları kapsayan bir modele sahip olmanız önerilir.

  • Eğitim kümesinde yeterli veri var: Bir varlık türü eğitim verilerinde 15'ten az etiketli örneğe sahipse, modelin bu durumlarda yeterince eğitilmemesi nedeniyle doğruluğun düşmesine neden olabilir. Bu durumda, eğitim kümesine daha fazla etiketli veri eklemeyi göz önünde bulundurun. Daha fazla rehberlik için veri dağıtımı sekmesini de kontrol edebilirsiniz.

  • Tüm varlık türleri test kümesinde bulunur: Test verilerinde bir varlık türü için etiketli örnekler olmadığında, test edilmemiş senaryolar nedeniyle modelin test performansı daha az kapsamlı hale gelebilir. Daha fazla rehberlik için test kümesi veri dağıtımı sekmesini de kontrol edebilirsiniz.

  • Varlık türleri eğitim ve test kümeleri içinde dengelenir: Örnekleme yanlılığı bir varlık türünün sıklığının yanlış bir gösterimine neden olduğunda, model bu varlık türünün çok sık veya çok az gerçekleşmesini beklediğinden daha düşük doğruluk oranına yol açabilir. Daha fazla rehberlik için veri dağıtımı sekmesini de kontrol edebilirsiniz.

  • Varlık türleri eğitim ve test kümeleri arasında eşit şekilde dağıtılır: Varlık türlerinin karışımı eğitim ve test kümeleri arasında eşleşmediğinde, modelin test edilme yönteminden farklı eğitildiği için test doğruluğunun düşmesine neden olabilir. Daha fazla rehberlik için veri dağıtımı sekmesini de kontrol edebilirsiniz.

  • Eğitim kümesindeki varlık türleri arasında net olmayan ayrım: Eğitim verileri birden çok varlık türü için benzer olduğunda, varlık türleri sıklıkla birbiriyle yanlış sınıflandırılabileceğinden daha düşük doğruluk oranına yol açabilir. Aşağıdaki varlık türlerini gözden geçirin ve benzerse birleştirmeyi göz önünde bulundurun. Aksi takdirde, bunları birbirinden daha iyi ayırt etmek için daha fazla örnek ekleyin. Daha fazla rehberlik için karışıklık matrisi sekmesini de kontrol edebilirsiniz.

Karışıklık matrisi

Karışıklık matrisi, model performansı değerlendirmesi için kullanılan bir N x N matrisidir; burada N varlık sayısıdır. Matris, beklenen etiketleri model tarafından tahmin edilen etiketlerle karşılaştırır. Bu, modelin ne kadar iyi performans sergilediğinden ve ne tür hatalar yaptığına ilişkin bütünsel bir görünüm sağlar.

Birbirine çok yakın olan ve genellikle yanlışlık (belirsizlik) olan varlıkları tanımlamak için Karışıklık matrisini kullanabilirsiniz. Bu durumda, bu varlık türlerini birlikte birleştirmeyi göz önünde bulundurun. Bu mümkün değilse, modelin aralarında ayrım yapmalarına yardımcı olmak için her iki varlığın da daha etiketli örneklerini eklemeyi göz önünde bulundurun.

Aşağıdaki görüntüde vurgulanan köşegen, tahmin edilen etiketin gerçek etiketle aynı olduğu doğru tahmin edilen varlıklardır.

Örnek bir karışıklık matrisi gösteren ekran görüntüsü.

Karışıklık matrisinden varlık düzeyi ve model düzeyi değerlendirme ölçümlerini hesaplayabilirsiniz:

  • Köşegendeki değerler, her varlığın Gerçek Pozitif değerleridir.
  • Varlık satırlarındaki değerlerin toplamı (çapraz hariç) modelin hatalı pozitif değeridir.
  • Varlık sütunlarındaki değerlerin toplamı (çapraz hariç) modelin hatalı Negatif değeridir.

Benzer şekilde:

  • Modelin gerçek pozitif değeri, tüm varlıklar için gerçek Pozitiflerin toplamıdır.
  • Modelin hatalı pozitif değeri, tüm varlıklar için hatalı pozitiflerin toplamıdır.
  • Modelin yanlış Negatif değeri, tüm varlıklar için hatalı negatiflerin toplamıdır.

Sonraki adımlar