Konuşma dili anlama modelleri için değerlendirme ölçümleri

Makale
12/19/2023

Veri kümeniz iki bölüme ayrılır: eğitim kümesi ve test için bir küme. Eğitim kümesi modeli eğitmek için kullanılırken, test kümesi model performansını ve değerlendirmesini hesaplamak için eğitimden sonra model için bir test olarak kullanılır. Test kümesi, modelin yeni veriler üzerinde test edilmesi için eğitim süreci aracılığıyla modele tanıtılmıyor.

Eğitim başarıyla tamamlandıktan sonra model değerlendirmesi otomatik olarak tetikleniyor. Değerlendirme işlemi, test kümesindeki ifadeler için kullanıcı tanımlı amaçları ve varlıkları tahmin etmek için eğitilen modeli kullanarak başlar ve bunları sağlanan etiketlerle karşılaştırır (bu da bir doğruluk temeli oluşturur). Modelin performansını gözden geçirebilmeniz için sonuçlar döndürülür. Değerlendirme için, konuşma dili anlama aşağıdaki ölçümleri kullanır:

Duyarlık: Modelinizin ne kadar hassas/doğru olduğunu ölçer. Doğru tanımlanmış pozitifler (gerçek pozitifler) ile tüm tanımlanan pozitifler arasındaki orandır. Duyarlık ölçümü, tahmin edilen sınıflardan kaçının doğru etiketlendiğini gösterir.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Hatırlayın: Modelin gerçek pozitif sınıfları tahmin etme yeteneğini ölçer. Tahmin edilen gerçek pozitifler ile gerçekte etiketlenen değerler arasındaki orandır. Geri çağırma ölçümü, tahmin edilen sınıflardan kaçının doğru olduğunu gösterir.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 puanı: F1 puanı Duyarlık ve Yakalama işlevinin bir işlevidir. Duyarlık ve Yakalama arasında bir denge ararken bu gereklidir.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Duyarlık, yakalama ve F1 puanı şunlar için hesaplanır:

Her varlık ayrı ayrı (varlık düzeyinde değerlendirme)
Her amaç ayrı ayrı (amaç düzeyinde değerlendirme)
Model için birlikte (model düzeyinde değerlendirme).

Duyarlık, yakalama ve değerlendirme tanımları varlık düzeyi, amaç düzeyi ve model düzeyi değerlendirmeleri için aynıdır. Ancak , Gerçek Pozitifler, Hatalı Pozitifler ve Hatalı Negatifler için sayımlar farklılık gösterebilir. Örneğin, aşağıdaki metni göz önünde bulundurun.

Örnek

Çok teşekkür ederiz ile bir yanıt yapın.
evet diyerek yanıtlayın.
Lütfen e-postamı kontrol edin.
Cynthia'ya geçen haftaki akşam yemeği muhteşem bir e-posta.
mike'a e-posta gönder

Kullanılan amaçlar şunlardır: Reply,sendEmail,readEmail. Varlıklar şunlardır: contactName, message.

Model aşağıdaki tahminleri yapabilir:

İfade	Tahmin edilen amaç	Gerçek amaç	Tahmin edilen varlık	Gerçek varlık
Çok teşekkür ederiz ile bir yanıt yapın	Yanıtla	Yanıtla	`thank you very much` Olarak `message`	`thank you very much` Olarak `message`
evet diyerek yanıtla	sendEmail	Yanıtla	--	`yes` Olarak `message`
E-postamı kontrol edin lütfen	readEmail	readEmail	--	--
geçen haftaki akşam yemeği muhteşem cynthia e-posta	Yanıtla	sendEmail	`dinner last week was splendid` Olarak `message`	`cynthia` olarak `contactName`, `dinner last week was splendid` olarak `message`
mike'a e-posta gönder	sendEmail	sendEmail	`mike` Olarak `message`	`mike` Olarak `contactName`

Yanıt amacı için amaç düzeyi değerlendirmesi

Anahtar	Count	Açıklama
Doğru Pozitif	1	Konuşma 1, Yanıtla olarak doğru tahmin edildi.
Yanlış Pozitif	1	Konuşma 4 yanlışlıkla Yanıtla olarak tahmin edildi.
Yanlış Negatif	1	Konuşma 2 yanlışlıkla sendEmail olarak tahmin edildi.

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

sendEmail amacı için amaç düzeyi değerlendirmesi

Anahtar	Count	Açıklama
Doğru Pozitif	1	Konuşma 5'in sendEmail olarak doğru tahmin edildiği
Yanlış Pozitif	1	Konuşma 2 yanlışlıkla sendEmail olarak tahmin edildi.
Yanlış Negatif	1	Konuşma 4 yanlışlıkla Yanıtla olarak tahmin edildi.

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

readEmail amacı için amaç düzeyi değerlendirmesi

Anahtar	Count	Açıklama
Doğru Pozitif	1	Konuşma 3 doğru bir şekilde readEmail olarak tahmin edildi.
Yanlış Pozitif	0	--
Yanlış Negatif	0	--

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 0) = 1

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 1) / (1 + 1) = 1

contactName varlığı için varlık düzeyi değerlendirmesi

Anahtar	Count	Açıklama
Doğru Pozitif	1	`cynthia` ifadede olduğu gibi `contactName` doğru tahmin edildi 4
Yanlış Pozitif	0	--
Yanlış Negatif	1	`mike` ifadesinde olduğu gibi `message` yanlışlıkla tahmin edildi 5

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 0) = 1

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 1 * 0.5) / (1 + 0.5) = 0.67

İleti varlığı için varlık düzeyi değerlendirmesi

Anahtar	Count	Açıklama
Doğru Pozitif	2	`thank you very much` ifade 1'de olduğu gibi `message` doğru tahmin edildi ve `dinner last week was splendid` konuşma 4'te olduğu gibi `message` doğru tahmin edildi
Yanlış Pozitif	1	`mike` ifadesinde olduğu gibi `message` yanlışlıkla tahmin edildi 5
Yanlış Negatif	1	`yes` konuşmada olduğu gibi `message` tahmin edilmedi 2

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

Kolektif model için model düzeyinde değerlendirme

Anahtar	Count	Açıklama
Doğru Pozitif	6	Tüm amaçlar ve varlıklar için TP toplamı
Yanlış Pozitif	3	Tüm amaçlar ve varlıklar için FP toplamı
Yanlış Negatif	4	Tüm amaçlar ve varlıklar için FN toplamı

Hassas = #True_Positive / (#True_Positive + #False_Positive) = 6 / (6 + 3) = 0.67

Hatırla = #True_Positive / (#True_Positive + #False_Negatives) = 6 / (6 + 4) = 0.60

F1 Puanı = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.60) / (0.67 + 0.60) = 0.63

Karışıklık matrisi

Karışıklık matrisi, model performansı değerlendirmesi için kullanılan bir N x N matrisidir; burada N, varlık veya amaç sayısıdır. Matris, beklenen etiketleri model tarafından tahmin edilen etiketlerle karşılaştırır. Bu, modelin ne kadar iyi performans sergilediğinden ve ne tür hatalar yaptığına ilişkin bütünsel bir görünüm sağlar.

Birbirine çok yakın olan ve genellikle yanlışlık (belirsizlik) alan amaçları veya varlıkları tanımlamak için Karışıklık matrisini kullanabilirsiniz. Bu durumda, bu amaçları veya varlıkları birleştirmeyi göz önünde bulundurun. Bu mümkün değilse, modelin aralarında ayrım yapmalarına yardımcı olmak için hem amaçlara hem de varlıklara ilişkin daha fazla etiketli örnek eklemeyi göz önünde bulundurun.

Aşağıdaki görüntüde vurgulanan çapraz, tahmin edilen etiketin gerçek etiketle aynı olduğu doğru tahmin edilen varlıklardır.

Karışıklık matrisinden amaç düzeyi veya varlık düzeyi ve model düzeyi değerlendirme ölçümlerini hesaplayabilirsiniz:

Köşegendeki değerler, her amacın veya varlığın Gerçek Pozitif değerleridir.
Amaç veya varlık satırlarındaki değerlerin toplamı (çapraz hariç) modelin hatalı pozitif değeridir.
Amaç veya varlık sütunlarındaki değerlerin toplamı (çapraz hariç) modelin hatalı Negatif değeridir.

Benzer şekilde:

Modelin gerçek pozitif değeri, tüm amaçlar veya varlıklar için gerçek Pozitiflerin toplamıdır.
Modelin hatalı pozitif değeri, tüm amaçlar veya varlıklar için hatalı pozitiflerin toplamıdır.
Modelin yanlış Negatif değeri, tüm amaçlar veya varlıklar için hatalı negatiflerin toplamıdır.

Rehber

Modelinizi eğitdikten sonra modelin nasıl geliştirileceğine ilişkin bazı rehberlik ve öneriler görürsünüz. Kılavuz bölümündeki her noktayı kapsayan bir modele sahip olmanız önerilir.

Eğitim kümesinde yeterli veri var: Bir amaç veya varlık eğitim verilerinde 15'ten az etiketli örneğe sahipse, modelin bu amaç üzerinde yeterli şekilde eğitilmemesi nedeniyle doğruluğun düşmesine neden olabilir. Bu durumda, eğitim kümesine daha fazla etiketli veri eklemeyi göz önünde bulundurun. Varlığınıza yalnızca varlığınızın öğrenilmiş bir bileşeni varsa daha fazla etiketli veri eklemeyi düşünmelisiniz. Varlığınız yalnızca liste, önceden oluşturulmuş ve normal ifade bileşenleriyle tanımlanmışsa, bu öneri geçerli değildir.
Tüm amaçlar veya varlıklar test kümesinde bulunur: Test verilerinde bir amaç veya varlık için etiketlenmiş örnekler olmadığında, test edilmemiş senaryolar nedeniyle model değerlendirmesi daha az kapsamlıdır. Her şeyin test edilmesini sağlamak için modelinizdeki her amaç ve varlık için test verilerine sahip olmayı göz önünde bulundurun.
Amaçlar veya varlıklar arasında net olmayan ayrım: Veriler farklı amaçlar veya varlıklar için benzer olduğunda, sıklıkla birbirleri olarak yanlış sınıflandırılabilecekleri için daha düşük doğruluk sağlayabilir. Aşağıdaki amaçları ve varlıkları gözden geçirin ve benzerlerse birleştirmeyi göz önünde bulundurun. Aksi takdirde, bunları birbirinden daha iyi ayırt etmek için daha fazla örnek ekleyin. Daha fazla rehberlik için karışıklık matrisi sekmesini de kontrol edebilirsiniz. Aynı liste, önceden oluşturulmuş veya normal ifade bileşenlerini paylaştıkları için sürekli olarak aynı aralıklar için tahmin edilen iki varlık görüyorsanız, her varlık için öğrenilmiş bir bileşen eklediğinizden ve gerekli hale getirdiğinizden emin olun. Varlık bileşenleri hakkında daha fazla bilgi edinin.

Sonraki adımlar

Language Studio'da model eğitin

Aracılığıyla paylaş

Konuşma dili anlama modelleri için değerlendirme ölçümleri

Örnek

Yanıt amacı için amaç düzeyi değerlendirmesi

sendEmail amacı için amaç düzeyi değerlendirmesi

readEmail amacı için amaç düzeyi değerlendirmesi

contactName varlığı için varlık düzeyi değerlendirmesi

İleti varlığı için varlık düzeyi değerlendirmesi

Kolektif model için model düzeyinde değerlendirme

Karışıklık matrisi

Rehber

Sonraki adımlar

Geri Bildirim

Geri Bildirim

Ek kaynaklar