Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, otomatik makine öğrenmesi (otomatik ML) denemeniz tarafından eğitilen modelleri değerlendirmeyi ve karşılaştırmayı öğrenin. Otomatik ml denemesi boyunca birçok iş oluşturulur ve her iş bir model oluşturur. Otomatik ML her model için, modelin performansını ölçmenize yardımcı olan değerlendirme ölçümleri ve grafikleri oluşturur.
Ayrıca, varsayılan olarak önerilen en iyi modelin bütünsel değerlendirmesini ve hata ayıklamasını gerçekleştirmek için sorumlu bir yapay zeka panosu oluşturabilirsiniz. Bu pano model açıklamaları, eşitlik ve performans gezgini, veri gezgini ve model hata analizi gibi içgörüleri içerir. Sorumlu yapay zeka panosu oluşturma hakkında daha fazla bilgi edinin.
Örneğin, otomatik ML deneme türüne göre aşağıdaki grafikleri oluşturur.
Önemli
Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Önizleme sürümü bir hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.
Önkoşullar
- Azure aboneliği. (Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun)
- Aşağıdakilerden biriyle oluşturulmuş bir Azure Machine Learning denemesi:
İş sonuçlarını görüntüleme
Otomatik ML denemeniz tamamlandıktan sonra işlerin geçmişine şu aracılığıyla ulaşabilirsiniz:
- Azure Machine Learning stüdyosu içeren bir tarayıcı
- JobDetails Jupyter pencere öğesini kullanan bir Jupyter not defteri
Aşağıdaki adımlar ve videoda, çalışma geçmişini ve model değerlendirme ölçümlerini ve grafiklerini stüdyoda nasıl görüntüleyebileceğiniz gösterilmektedir:
- Stüdyoda oturum açın ve çalışma alanınıza gidin.
- Soldaki menüde İşler'i seçin.
- Deneme listesinden denemenizi seçin.
- Sayfanın en altındaki tabloda otomatik bir ML işi seçin.
- Modeller sekmesinde, değerlendirmek istediğiniz modelin Algoritma adını seçin.
- Ölçümler sekmesinde, soldaki onay kutularını kullanarak ölçümleri ve grafikleri görüntüleyin.
Sınıflandırma ölçümleri
Otomatik ML, denemeniz için oluşturulan her sınıflandırma modeli için performans ölçümlerini hesaplar. Bu ölçümler scikit learn uygulamasını temel alır.
İkili sınıflandırma için tanımlanmış birçok sınıflandırma ölçütü, çok sınıflı sınıflandırmalarda tek bir puan elde etmek için sınıflar genelinde ortalama alınmasını gerektirir. Scikit-learn, otomatik ML'nin sunduğu makro, mikro ve ağırlıklı olmak üzere çeşitli ortalama yöntemleri sağlar.
- Makro - Her sınıf için ölçümü hesaplama ve ağırlıksız ortalamayı alma
- Mikro - Toplam gerçek pozitifleri, hatalı negatifleri ve hatalı pozitifleri (sınıflardan bağımsız) sayarak ölçümü genel olarak hesaplayın.
- Ağırlıklı - Her sınıf için ölçümü hesaplayın ve sınıf başına örnek sayısına göre ağırlıklı ortalamayı alın.
Her ortalama yönteminin avantajları olsa da, uygun yöntem seçilirken dikkat edilmesi gerekenlerden biri sınıf dengesizliğidir. Sınıfların farklı sayıda örneği varsa, azınlık sınıflarına çoğunluk sınıflarına eşit ağırlık verilen bir makro ortalaması kullanmak daha bilgilendirici olabilir. Otomatik ML'de ikili ve çok sınıflı ölçümler hakkında daha fazla bilgi edinin.
Aşağıdaki tabloda, denemeniz için oluşturulan her sınıflandırma modeli için otomatik ML'nin hesap yaptığı model performans ölçümleri özetlemektedir. Daha fazla ayrıntı için her ölçümün Hesaplama alanında bağlantılı scikit-learn belgelerine bakın.
Not
Görüntü sınıflandırma modellerinin ölçümleri hakkında daha fazla ayrıntı için görüntü ölçümleri bölümüne bakın.
| Metrik | Açıklama | Hesaplama |
|---|---|---|
| AUC | AUC, Alıcı çalışma özelliği eğrisinin altındaki alandır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: AUC_macro, her sınıf için AUC'nin aritmetik ortalaması.AUC_micro, toplam gerçek pozitifleri, hatalı negatifleri ve hatalı pozitifleri sayarak hesaplanır. AUC_weighted, her sınıf için puanın aritmetik ortalaması, her sınıftaki doğru örneklerin sayısına göre ağırlıklıdır. AUC_binary, belirli bir sınıfı true sınıfı olarak ele alıp diğer tüm sınıfları false sınıfı olarak birleştirerek AUC değerini hesaplar. |
Hesaplama |
| doğruluk | Doğruluk, gerçek sınıf etiketleriyle tam olarak eşleşen tahminlerin oranıdır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] |
Hesaplama |
| ortalama hassasiyet | Ortalama kesinlik, her eşikte elde edilen kesinliklerin ağırlıklı ortalaması olarak bir kesinlik-hatırlama eğrisini özetler ve önceki eşikten bu eşiğe hatırlama artışı ağırlık olarak kullanılır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: average_precision_score_macro, her sınıfın ortalama duyarlık puanının aritmetik ortalaması.average_precision_score_micro, toplam gerçek pozitifleri, hatalı negatifleri ve hatalı pozitifleri sayarak hesaplanır.average_precision_score_weighted, her sınıf için ortalama duyarlık puanının aritmetik ortalaması, her sınıftaki gerçek örneklerin sayısına göre ağırlıklıdır. average_precision_score_binary, belirli bir sınıfı true sınıfı olarak değerlendirip, diğer tüm sınıfları false sınıfı olarak birleştirerek ortalama hassasiyet değeridir. |
Hesaplama |
| dengeli doğruluk | Dengeli doğruluk, her sınıf için aritmetik geri çağırma ortalamasıdır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] |
Hesaplama |
| F1 puanı | F1 puanı, kesinlik ve duyarlılığın harmonik ortalamasıdır. Hatalı pozitifler ve hatalı negatiflerin dengeli bir ölçüsüdür. Ancak gerçek negatifleri hesaba katmıyor. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: f1_score_macro: Her sınıf için F1 puanının aritmetik ortalaması. f1_score_micro: toplam gerçek pozitifleri, hatalı negatifleri ve hatalı pozitifleri sayarak hesaplanır. f1_score_weighted: Her sınıf için F1 skorunun sınıf frekansına göre ağırlıklı ortalaması. f1_score_binary, belirli bir sınıfı sınıf olarak değerlendirerek ve diğer tüm sınıfları sınıf olarak truefalse birleştirerek f1 değerini verir. |
Hesaplama |
| logaritmik kayıp | Bu, (çok terimli) lojistik regresyon ve bunun sinir ağları gibi uzantılarında kullanılan kayıp işlevidir ve olasılığa dayalı sınıflandırıcının tahminleri göz önüne alındığında gerçek etiketlerin negatif log-olasılığı olarak tanımlanır. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) |
Hesaplama |
| norm_makro_geri_çağırma | Normalleştirilmiş makro geri çağırma, makro olarak ortalaması alınan ve normalleştirilen geri çağırmadır; bu, rastgele performansın 0, mükemmel performansın ise 1 puana sahip olacağı anlamına gelir. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] |
(recall_score_macro - R) / (1 - R) Burada, R rastgele tahminler için beklenen değer recall_score_macro'dır.R = 0.5 ikili sınıflandırma için. R = (1 / C) C sınıfı sınıflandırma sorunları için. |
| Matthews Korelasyon Katsayısı | Matthews korelasyon katsayısı, bir sınıfta diğerinden çok daha fazla örnek olsa bile kullanılabilen dengeli bir doğruluk ölçüsüdür. 1 katsayısı mükemmel tahmini, 0 rastgele tahmini ve -1 ters tahmini gösterir. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [-1, 1] |
Hesaplama |
| hassasiyet | Kesinlik, bir modelin negatif örnekleri pozitif olarak etiketlemekten kaçınma yeteneğidir. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: precision_score_macro, her sınıf için aritmetik duyarlık ortalaması. precision_score_micro, toplam gerçek pozitifleri ve hatalı pozitifleri sayarak genel olarak hesaplanır. precision_score_weighted, her sınıf için aritmetik duyarlık ortalaması, her sınıftaki doğru örneklerin sayısına göre ağırlıklıdır. precision_score_binary duyarlık değerini hesaplarken, belirli bir sınıfı true sınıfı olarak değerlendirir ve diğer tüm sınıfları false sınıfı olarak birleştirir. |
Hesaplama |
| geri çağırma | Bir modelin tüm pozitif örnekleri algılama yeteneğine bulma oranı denir. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] Desteklenen ölçüm adları şunlardır: recall_score_macro: her sınıf için aritmetik geri çağırma ortalaması. recall_score_micro: toplam gerçek pozitifler, hatalı negatifler ve hatalı pozitifler sayılarak genel olarak hesaplanır.recall_score_weighted: Her sınıf için aritmetik geri çağırma ortalaması, her sınıftaki gerçek örneklerin sayısına göre ağırlıklıdır. recall_score_binary, belirli bir sınıfı true sınıfı olarak değerlendirip diğer tüm sınıfları false sınıfı olarak birleştirerek hatırlama oranının değeridir. |
Hesaplama |
| ağırlıklı doğruluk | Ağırlıklı doğruluk, her örneğin aynı sınıfa ait toplam örnek sayısına göre ağırlıklandırıldığı doğruluktır. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [0, 1] |
Hesaplama |
İkili ve çok sınıflı sınıflandırma ölçümleri karşılaştırması
Otomatik ML, verilerin ikili olup olmadığını otomatik olarak algılar ve ayrıca bir true sınıf belirterek verilerin çok sınıflı olmasına rağmen kullanıcıların ikili sınıflandırma ölçümlerini etkinleştirmesine olanak tanır. Bir veri kümesinin iki veya daha fazla sınıfı varsa çok sınıflı sınıflandırma ölçümleri bildirilir. İkili sınıflandırma ölçümleri yalnızca veriler ikili olduğunda bildirilir.
Çok sınıflı sınıflandırma ölçümlerinin çok sınıflı sınıflandırmaya yönelik olduğunu unutmayın. İkili veri kümesine uygulandığında, bu ölçümler beklediğiniz gibi herhangi bir sınıfı true sınıfı olarak değerlendirmez. Çok sınıflı işlemler için açıkça belirtilen ölçümler micro, macro veya weighted ile sonlandırılmıştır. Örnek olarak average_precision_score, f1_score, precision_score, recall_score, ve AUC verilebilir. Örneğin, geri çağırmayı olarak tp / (tp + fn)hesaplamak yerine, çok sınıflı ortalamalı geri çağırma (micro, macroveya weighted) ikili sınıflandırma veri kümesinin her iki sınıfının ortalamasını alır. Bu, true sınıfı ve false sınıfı için geri çağırma oranını ayrı ayrı hesaplayıp, ardından ikisinin ortalamasını almaya eşdeğerdir.
Buna ek olarak, ikili sınıflandırmanın otomatik olarak algılanması desteklense de, ikili sınıflandırma ölçümlerinin doğru sınıf için hesaplandığından true emin olmak için sınıfı her zaman el ile belirtmeniz önerilir.
Veri kümesi çok sınıflı olduğunda ikili sınıflandırma veri kümelerinin ölçümlerini etkinleştirmek için kullanıcıların yalnızca sınıf olarak true kabul edilecek sınıfı belirtmesi gerekir ve bu ölçümler hesaplanır.
Karışıklık matrisi
Karışıklık matrisleri, makine öğrenmesi modelinin sınıflandırma modellerine yönelik tahminlerinde nasıl sistematik hatalar yaptığının görsel bir gösterimini sağlar. Adındaki "karışıklık" kelimesi, bir modelin örnekleri "karıştırması" veya yanlış etiketlemesinden kaynaklanır. Karışıklık matrisindeki i. satır ve j. sütundaki bir hücre, değerlendirme veri kümesinde sınıf C_i'ye ait olan ve model tarafından C_j sınıfı olarak sınıflandırılan örnek sayısını içerir.
Stüdyoda, daha koyu bir hücre daha fazla örnek sayısını gösterir.
Açılan listede Normalleştirilmiş görünümün seçilmesi, her matris satırına göre normalleştirerek sınıf C_i'in, sınıf C_j olarak tahmin edilme yüzdesini gösterir. Varsayılan Ham görünümün avantajı, gerçek sınıfların dağılımındaki dengesizliklerin modelin azınlık sınıfından örnekleri yanlış sınıflandırmasına neden olup olmadığını görebilmenizdir. Bu, dengesiz veri kümelerinde sık karşılaşılan bir sorundur.
İyi bir modelin karışıklık matrisinde çapraz boyunca çoğu örnek bulunur.
İyi bir model için karışıklık matrisi
Hatalı bir model için karışıklık matrisi
ROC eğrisi
Alıcı çalışma özelliği (ROC) eğrisi, karar eşiği değiştikçe gerçek pozitif oran (TPR) ile hatalı pozitif oran (FPR) arasındaki ilişkiyi çizer. ROC eğrisi, yüksek sınıf dengesizliği olan veri kümeleri üzerinde modelleri eğitirken daha az bilgilendirici olabilir, çoğunluk sınıfı azınlık sınıflarının katkılarını boğabilir.
Eğrinin altındaki alan (AUC), doğru sınıflandırılmış örneklerin oranı olarak yorumlanabilir. Daha kesin olarak, AUC, sınıflandırıcının rastgele seçilen pozitif bir örneği rastgele seçilen negatif örnekten daha yüksek dereceleme olasılığıdır. Eğrinin şekli, sınıflandırma eşiğinin veya karar sınırının bir işlevi olarak TPR ile FPR arasındaki ilişki için bir sezgi verir.
Grafiğin sol üst köşesine yaklaşan bir eğri, mümkün olan en iyi model olan %100 TPR ve %0 FPR'ye yaklaşıyor. Rastgele bir model, sol alt köşeden sağ üst köşeye y = x doğru çizgi boyunca bir ROC eğrisi üretir. Rastgele modellerden daha kötü bir model, çizginin altına inen bir ROC eğrisine y = x sahip olabilir.
İpucu
Sınıflandırma denemeleri için, otomatik ML modelleri için üretilen çizgi grafiklerin her biri, modeli sınıf başına değerlendirmek veya tüm sınıflara göre ortalamasını almak için kullanılabilir. Grafiğin sağındaki göstergede sınıf etiketlerine tıklayarak bu farklı görünümler arasında geçiş yapabilirsiniz.
İyi bir model için ROC eğrisi
Kötü bir model için ROC eğrisi
Duyarlık-geri çağırma eğrisi
Duyarlık-geri çağırma eğrisi, karar eşiği değiştikçe duyarlık ve geri çağırma arasındaki ilişkiyi çizer. Hatırlayacağınız üzere modelin tüm pozitif örnekleri algılama özelliği ve duyarlık, modelin negatif örnekleri pozitif olarak etiketlemekten kaçınma özelliğidir. Bazı iş sorunları, hatalı negatiflerden ve hatalı pozitiflerden kaçınmanın göreli önemine bağlı olarak daha yüksek geri çağırma ve biraz daha yüksek hassasiyet gerektirebilir.
İpucu
Sınıflandırma denemeleri için, otomatik ML modelleri için üretilen çizgi grafiklerin her biri, modeli sınıf başına değerlendirmek veya tüm sınıflara göre ortalamasını almak için kullanılabilir. Grafiğin sağındaki göstergede sınıf etiketlerine tıklayarak bu farklı görünümler arasında geçiş yapabilirsiniz.
İyi bir model için duyarlık-geri alma eğrisi
Güçsüz bir model için kesinlik-duyarlılık eğrisi
Kümülatif kazanımlar eğrisi
Kümülatif kazançlar eğrisi, örnekleri tahmin edilen olasılık sırasına göre ele aldığımız örnek yüzdesinin işlevi olarak doğru sınıflandırılan pozitif örneklerin yüzdesini çizer.
Kazancı hesaplamak için öncelikle model tarafından tahmin edilen en yüksekten en düşük olasılığa kadar tüm örnekleri sıralayın. Ardından x% en yüksek güvenilirlik tahminlerini alın. Bu değerde x% algılanan pozitif örneklerin sayısını, kazancı elde etmek için toplam pozitif örnek sayısına bölün. Kümülatif kazanç, pozitif sınıfa ait olma olasılığı en yüksek olan verilerin yüzde bir kısmını değerlendirirken algıladığımız pozitif örneklerin yüzdesidir.
Mükemmel bir model, tüm pozitif örnekleri tüm negatif örneklerin üzerinde sıralar ve iki düz segmentten oluşan bir kümülatif kazanç eğrisi verir. İlki, eğimi 1 / x olan bir çizgidir ve (0, 0)'den (x, 1)'ye uzanır, burada x pozitif sınıfa ait örneklerin kesirini gösterir (1 / num_classes sınıflar dengeliyse). İkincisi, (x, 1) ile (1, 1) arasında yatay bir çizgidir. İlk segmentte, tüm pozitif örnekler doğru sınıflandırılır ve değerlendirilen örneklerin ilk 100%'inde kümülatif kazanç x%'e ulaşır.
Rastgele taban modeli, y = x izleyen kümülatif kazanç eğrisine sahiptir; burada değerlendirilen örneklerin yalnızca x% kadarı, toplam pozitif örneklerin sadece x% kadarını tespit edebilmiştir. Dengeli bir veri kümesi için mükemmel bir model, bir mikro ortalama eğrisi ve kümülatif kazanç %100 olduğunda kadar dikey bir eğime sahip olan ve ardından veri yüzdesi %100 olana kadar yatay ilerleyen bir makro ortalama çizgisine sahiptir.
İpucu
Sınıflandırma denemeleri için, otomatik ML modelleri için üretilen çizgi grafiklerin her biri, modeli sınıf başına değerlendirmek veya tüm sınıflara göre ortalamasını almak için kullanılabilir. Grafiğin sağındaki göstergede sınıf etiketlerine tıklayarak bu farklı görünümler arasında geçiş yapabilirsiniz.
İyi bir model için kümülatif kazanç eğrisi
Kötü bir model için kümülatif kazanç eğrisi
Yükseltme eğrisi
Kaldırma eğrisi, bir modelin rastgele modele kıyasla kaç kat daha iyi performans gösterdiğini gösterir. Lift, kümülatif kazancın rastgele bir modelin kümülatif kazancına oranı olarak tanımlanır (her zaman olmalıdır 1).
Bu göreli performans, sınıf sayısını artırdıkça sınıflandırmanın daha zor hale geldiğini dikkate alır. (Rastgele model, iki sınıflı bir veri kümesine kıyasla 10 sınıflı bir veri kümesinden alınan örneklerin daha yüksek bir bölümünü yanlış tahmin eder)
Taban çizgisi kaldırma eğrisi, y = 1 model performansının rastgele bir modelle tutarlı olduğu çizgidir. Genel olarak, iyi bir modelin lift eğrisi bu grafikte daha yüksektir ve x ekseninden daha uzaktır ve modelin tahminlerine en çok güvendiği zaman rastgele tahminden çok daha iyi performans gösterdiğini gösterir.
İpucu
Sınıflandırma denemeleri için, otomatik ML modelleri için üretilen çizgi grafiklerin her biri, modeli sınıf başına değerlendirmek veya tüm sınıflara göre ortalamasını almak için kullanılabilir. Grafiğin sağındaki göstergede sınıf etiketlerine tıklayarak bu farklı görünümler arasında geçiş yapabilirsiniz.
İyi bir model için lift curve
Kötü bir model için kaldırma eğrisi
Kalibrasyon eğrisi
Kalibrasyon eğrisi, modelin tahminlerine olan güvenini her güvenilirlik düzeyindeki pozitif örneklerin oranına göre çizer. İyi kalibre edilmiş bir model, %100 güven atadığı tahminlerin %100'ünü, %50 güven atadığı tahminlerin %50'sini ve %20 güven atadığı tahminlerin %20'sini doğru şekilde sınıflandırır. Mükemmel şekilde kalibre edilmiş bir model, modelin örneklerin her sınıfa ait olma olasılığını mükemmel bir şekilde tahmin ettiği y = x hattı boyunca ilerleyen bir kalibrasyon eğrisine sahiptir.
Aşırı özgüvenli bir model, sıfıra ve bire yakın olasılıkları gereğinden fazla tahmin eder ve nadiren her örneğin sınıfında belirsizlik yaşar. Böyle bir modelin kalibrasyon eğrisi, geriye dönük bir "S" ile benzer olacaktır. Kendinden emin olmayan bir model, tahminde bulunan sınıfa ortalama olarak daha düşük bir olasılık atar. İlişkili kalibrasyon eğrisi bir "S" ile benzerdir. Kalibrasyon eğrisi, modelin doğru sınıflandırma yeteneğini değil, tahminlerine doğru güvenilirlik atama becerisini gösterir. Model doğru şekilde düşük güvenilirlik ve yüksek belirsizlik atadıysa kötü bir model iyi bir kalibrasyon eğrisine sahip olabilir.
Not
Kalibrasyon eğrisi örnek sayısına duyarlıdır, bu nedenle küçük bir doğrulama kümesi yorumlanması zor olabilecek gürültülü sonuçlar üretebilir. Bu, modelin iyi kalibre edilmediği anlamına gelmez.
İyi bir model için kalibrasyon eğrisi
Hatalı bir model için kalibrasyon eğrisi
Regresyon/tahmin ölçümleri
Otomatik ML, bir regresyon veya tahmin denemesi olmasına bakılmaksızın oluşturulan her model için aynı performans ölçümlerini hesaplar. Bu ölçümler, farklı aralıklara sahip veriler üzerinde eğitilen modeller arasında karşılaştırma yapmak için de normalleştirmeden geçer. Daha fazla bilgi edinmek için bkz . ölçüm normalleştirme.
Aşağıdaki tabloda regresyon ve tahmin denemeleri için oluşturulan model performans ölçümleri özetlenmiştir. Sınıflandırma ölçümleri gibi bu ölçümler de scikit learn uygulamalarını temel alır. Hesaplama alanında, ilgili scikit-learn belgeleri uygun şekilde bağlantılıdır.
| Metrik | Açıklama | Hesaplama |
|---|---|---|
| Açıklanmış varyans | Açıklanan varyans, modelin hedef değişkendeki varyasyonu ne ölçüde hesapladığına ilişkin ölçüler. Bu, özgün verilerin varyansında hataların varyansına yüzde azalmadır. Hataların ortalaması 0 olduğunda, belirleme katsayısına eşittir (aşağıdaki grafikte r2_score bakın). Amaç: 1'e daha yakınsa o kadar iyi Aralık: (-inf, 1] |
Hesaplama |
| ortalama mutlak hata | Ortalama mutlak hata, hedefle tahmin arasındaki mutlak fark değerinin beklenen değeridir. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) Tür: mean_absolute_error normalized_mean_absolute_error, mean_absolute_error'un veri aralığına bölünmesi. |
Hesaplama |
| Ortalama mutlak yüzde hatası | Ortalama mutlak yüzde hatası (MAPE), tahmin edilen değerle gerçek değer arasındaki ortalama farkın ölçüsüdür. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) |
|
| medyan mutlak hata | Ortanca mutlak hata, hedef ve tahmin arasındaki tüm mutlak farklılıkların ortanca değeridir. Bu kayıp aykırı değerler için güçlüdür. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) Tür: median_absolute_errornormalized_median_absolute_error: median mutlak hata, veri aralığına bölünür. |
Hesaplama |
| r2_score | R2 (belirleme katsayısı), gözlemlenen verilerin toplam varyansına göre ortalama kare hatasının (MSE) orantılı azalmasını ölçer. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [-1, 1] Not: R2 genellikle (-inf, 1] aralığına sahiptir. MSE gözlemlenen varyanstan daha büyük olabilir, bu nedenle R2 , verilere ve model tahminlerine bağlı olarak rastgele olarak büyük negatif değerlere sahip olabilir. Otomatik ML klipleri R2 puanlarını -1 olarak bildirdiği için R2 için -1 değeri büyük olasılıkla gerçek R2 puanının -1'den küçük olduğu anlamına gelir. Negatif R2 puanını yorumlarken diğer ölçüm değerlerini ve verilerin özelliklerini göz önünde bulundurun. |
Hesaplama |
| kök ortalama kare hata | Kök ortalama kare hatası (RMSE), hedef ile tahmin arasındaki beklenen kare farkının kareköküdür. Taraflı olmayan bir tahmin aracı için RMSE, standart sapmaya eşittir. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) Tür: root_mean_squared_error normalized_root_mean_squared_error: kök ortalama kare hatası, veri aralığıyla bölünmüş olarak ifade edilir. |
Hesaplama |
| Kök Ortalama Kare Logaritmik Hata | Kök ortalama kare logaritma hatası, beklenen kare logaritmik hatanın karekökünü alır. Amaç: 0'a ne kadar yakınsa o kadar iyi Aralık: [0, inf) Tür: root_mean_squared_log_error normalized_root_mean_squared_log_error: root_mean_squared_log_error değeri, veri aralığına bölünerek hesaplanır. |
Hesaplama |
| Spearman sıralama korelasyonu | Spearman bağıntısı, iki veri kümesi arasındaki ilişkinin monotonluğuna ilişkin birparametrik olmayan ölçüdür. Pearson bağıntısının aksine Spearman bağıntısı her iki veri kümesinin de normal olarak dağıtıldığını varsaymaz. Diğer korelasyon katsayıları gibi Spearman da -1 ile 1 arasında değişir ve 0 bağıntı olmadığını gösterir. -1 veya 1 bağıntıları tam bir monoton ilişki anlamına geliyor. Spearman, tahmin edilen veya gerçek değerlere yapılan değişikliklerin, tahmin edilen veya gerçek değerlerin sıralama sırasını değiştirmemesi durumunda Spearman sonucunu değiştirmeyeceği anlamına gelen derece sırası bağıntı ölçümüdür. Amaç: 1'e daha yakınsa o kadar iyi Aralık: [-1, 1] |
Hesaplama |
Ölçüm normalleştirmesi
Otomatik ML, regresyon ve tahmin ölçümlerini normalleştirerek farklı aralıklara sahip veriler üzerinde eğitilen modeller arasında karşılaştırma sağlar. Daha büyük bir aralığa sahip veriler üzerinde eğitilen bir model, hata normalleştirilmediği sürece daha küçük bir aralığa sahip verilerde eğitilen modelden daha yüksek hataya sahiptir.
Hata ölçümlerini normalleştirmenin standart bir yöntemi olmasa da otomatik ML, hatayı veri aralığına bölmek için yaygın bir yaklaşım benimser: normalized_error = error / (y_max - y_min)
Not
Veri aralığı modelle birlikte kaydedilmez. Bir bekleme testi kümesinde aynı modelle çıkarım yaparsanız, y_min ve y_max test verilerine göre değişebilir ve normalleştirilmiş ölçümler modelin eğitim ve test kümelerindeki performansını karşılaştırmak için doğrudan kullanılamayabilir. Eğitim kümenizden y_min ve y_max değerlerini geçirebilirsiniz, bu şekilde karşılaştırmayı adil hale getirirsiniz.
Tahmin ölçümleri: normalleştirme ve toplama
Tahmin modeli değerlendirmesi için ölçümlerin hesaplanması, veriler birden çok zaman serisi içerdiğinde dikkat edilmesi gereken bazı özel noktalar gerektirir. Ölçümleri birden çok seri üzerinden toplamaya yönelik iki doğal seçenek vardır:
- Her serideki değerlendirme ölçümlerine eşit ağırlık verildiği makro ortalaması,
- Her tahmin için değerlendirme ölçümlerinin eşit ağırlığa sahip olduğu mikro ortalama .
Bu durumlar, çok sınıflı sınıflandırmada makroya ve mikro ortalamaya doğrudan benzetmelere sahiptir.
Model seçimi için birincil ölçüm seçilirken makro ile mikro ortalama arasındaki ayrım önemli olabilir. Örneğin, çeşitli tüketici ürünlerine yönelik talebi tahmin etmek istediğiniz perakende senaryolarını göz önünde bulundurun. Bazı ürünler diğerlerinden daha yüksek hacimlerde satmaktadır. Ana ölçüt olarak mikro ortalamalı bir RMSE seçerseniz, yüksek hacimli öğeler modelleme hatasının büyük bir bölümüne katkıda bulunur ve dolayısıyla ölçüme hakim olabilir. Model seçim algoritması, yüksek hacimli öğelerde düşük hacimli öğelere göre daha yüksek doğruluk oranına sahip modelleri tercih edebilir. Buna karşılık, makro ortalamalı, normalleştirilmiş bir RMSE, düşük hacimli ürünlere, yüksek hacimli ürünlere yaklaşık olarak eşit ağırlık verir.
Aşağıdaki tabloda AutoML'nin tahmin ölçümleri listelenir ve makro ile mikro ortalama karşılaştırması kullanılır:
| Makro ortalaması | Mikro ortalama |
|---|---|
normalized_mean_absolute_error, normalized_median_absolute_error, normalized_root_mean_squared_error, normalized_root_mean_squared_log_error |
mean_absolute_error, median_absolute_error, root_mean_squared_error, , root_mean_squared_log_error, r2_score, explained_variance, spearman_correlation, mean_absolute_percentage_error |
Makro ortalaması ölçümlerinin her seriyi ayrı ayrı normalleştirdiğini unutmayın. Ardından, son sonucu vermek için her seriden normalleştirilmiş ölçümlerin ortalaması alınır. Makro ile mikro arasında doğru seçim iş senaryosuna bağlıdır, ancak genellikle kullanmanızı normalized_root_mean_squared_erroröneririz.
Kalıntılar
Artıklar grafiği, regresyon ve tahmin denemeleri için oluşturulan tahmin hatalarının (artıklar) histogramıdır. Artıklar, tüm örnekler için y_predicted - y_true olarak hesaplanır ve ardından model sapmasını göstermek için histogram olarak görüntülenir.
Bu örnekte, her iki model de gerçek değerden biraz daha düşük tahminlerde bulunma eğilimindedir. Bu, gerçek hedeflerin çarpık dağılımına sahip bir veri kümesi için yaygın değildir, ancak model performansının daha kötü olduğunu gösterir. İyi bir model, uç noktalarda az sayıda artık ile sıfırda zirveye ulaşan bir artık dağılımına sahiptir. Daha kötü bir modelde, sıfıra yakın daha az örnek içeren ve genişleyen bir artık dağılımı bulunur.
İyi bir model için artıklar grafiği
Hatalı bir model için rezidü grafiği
Tahmin edilen ve gerçek
Regresyon ve tahmin denemeleri için tahmin edilen ve gerçek olan grafik, hedef özellik (doğru/gerçek değerler) ile modelin tahminleri arasındaki ilişkiyi çizer. Gerçek değerler x ekseni boyunca gruplandırılır ve her bölme için ortalama tahmin edilen değer hata çubuklarıyla çizilir. Bu, modelin belirli değerleri tahmin etme konusunda taraflı olup olmadığını görmenizi sağlar. Çizgi, ortalama tahmini görüntüler ve gölgeli alan bu ortalamanın etrafındaki tahminlerin varyansını gösterir.
Genellikle en yaygın gerçek değer, en düşük varyansa sahip en doğru tahminlere sahiptir. Eğilim çizgisinin, çok az gerçek değerin bulunduğu ideal y = x çizgiden uzaklığı, aykırı değerler üzerinde model performansının iyi bir ölçüsüdür. Gerçek veri dağılımını belirlemek için grafiğin altındaki histogramı kullanabilirsiniz. Dağıtımın seyrek olduğu daha fazla veri örneği dahil olmak, görünmeyen verilerde model performansını artırabilir.
Bu örnekte, daha iyi modelin ideal y = x çizgisine daha yakın bir tahmin vs. gerçek çizgisine sahip olduğuna dikkat edin.
İyi bir model için tahmin edilen ve gerçek grafik karşılaştırması
Kötü bir model için tahmin edilen ve gerçek grafik karşılaştırması
Tahmin ufku
Tahmin deneyleri için, tahmin ufku grafiği, modelin tahmin edilen değerleri ile çapraz doğrulama katı başına zaman içinde haritalanan gerçek değerler arasındaki ilişkiyi, beş kat'a kadar çizer. X ekseni, eğitim kurulumu sırasında sağladığınız sıklık temelinde zamanı eşler. Grafikteki dikey çizgi, tahminleri oluşturmaya başlamak istediğiniz zaman aralığı olan ufuk çizgisi olarak da adlandırılan tahmin ufuk noktasını işaretler. Tahmin ufuk çizgisinin solunda geçmiş eğilimleri daha iyi görselleştirmek için geçmiş eğitim verilerini görüntüleyebilirsiniz. Tahmin ufkunun sağında, farklı çapraz doğrulama dilimleri ve zaman serisi tanımlayıcıları için tahminleri (mor çizgi) gerçek değerlere (mavi çizgi) göre görselleştirebilirsiniz. Gölgeli mor alan, bu ortalamanın etrafındaki tahminlerin olasılık aralıklarını veya varyansını gösterir.
Grafiğin sağ üst köşesindeki kalem simgesine tıklayarak hangi çapraz doğrulama katlama ve zaman serisi tanımlayıcı bileşimlerinin görüntüleneceğini seçebilirsiniz. Çeşitli zaman serilerinizin grafiğini görselleştirmek için ilk beş çapraz doğrulama katlama ve 20'ye kadar farklı zaman serisi tanımlayıcısı arasından seçim yapın.
Önemli
Bu grafik hem eğitim ve doğrulama verilerinden oluşturulan modeller için eğitim çalıştırmasında hem de eğitim verilerine ve test verilerine dayalı test çalıştırmasında kullanılabilir. Tahmin kaynağından önce en fazla 20 veri noktasına ve tahmin kaynağından sonra en fazla 80 veri noktasına izin veririz. DNN modellerinde, eğitim sürecindeki bu grafik, son epoch'un (yani model tamamen eğitildikten sonraki) verilerini gösterir. Eğitim çalışması sırasında doğrulama verileri açıkça sağlanmışsa, test çalışmasındaki bu grafikte, ufuk çizgisinin önünde bir boşluk olabilir. Bunun nedeni, eğitim verilerinin ve test verilerinin test çalıştırmasında kullanılması ve doğrulama verilerinin dışarıda bırakılmasıdır ve bu da boşlukla sonuçlanır.
Görüntü modelleri için ölçümler (önizleme)
Otomatik ML, modelin performansını değerlendirmek için doğrulama veri kümesindeki görüntüleri kullanır. Eğitimin nasıl ilerlettiğini anlamak için modelin performansı dönem düzeyinde ölçülür. Bir veri kümesinin tamamı sinir ağı üzerinden tam olarak bir kez ileri ve geri geçirildiğinde bir dönem geçer.
Görüntü sınıflandırma ölçümleri
Değerlendirme için birincil ölçüm, ikili ve çok sınıflı sınıflandırma modellerinin doğruluğu ve çok etiketli sınıflandırma modelleri için IoU (Birleşim üzerinde Kesişim) ölçümüdür. Görüntü sınıflandırma modellerinin sınıflandırma ölçümleri, sınıflandırma ölçümleri bölümünde tanımlanan ölçümlerle aynıdır. Bir dönemle ilişkili kayıp değerleri de günlüğe kaydedilir ve bu da eğitimin nasıl ilerlediğini izlemeye ve modelin aşırı uygun mu yoksa yetersiz mi olduğunu belirlemeye yardımcı olabilir.
Sınıflandırma modelindeki her tahmin, tahminin yapıldığı güvenilirlik düzeyini gösteren bir güvenilirlik puanıyla ilişkilendirilir. Çok etiketli görüntü sınıflandırma modelleri varsayılan olarak 0,5 puan eşiğiyle değerlendirilir, yani yalnızca bu güven düzeyine sahip tahminler ilişkili sınıf için pozitif bir tahmin olarak kabul edilir. Çok sınıflı sınıflandırma puan eşiği kullanmaz, ancak bunun yerine en yüksek güvenilirlik puanına sahip sınıf tahmin olarak kabul edilir.
Görüntü sınıflandırması için dönem düzeyinde ölçümler
Tablosal veri kümelerinin sınıflandırma ölçümlerinden farklı olarak, görüntü sınıflandırma modelleri, aşağıda gösterildiği şekliyle tüm sınıflandırma ölçümlerini epoch seviyesinde kaydeder.
Görüntü sınıflandırma için özet ölçümler
Görüntü sınıflandırma modelleri, dönem düzeyinde günlüğe kaydedilen skaler ölçümlerin dışında karışıklık matrisi, ROC eğrisi dahil sınıflandırma grafikleri , duyarlık-geri çağırma eğrisi ve en yüksek birincil ölçüm (doğruluk) puanını aldığımız en iyi dönem için sınıflandırma raporu gibi özet ölçümleri de günlüğe kaydeder.
Sınıflandırma raporu aşağıda gösterildiği gibi duyarlık, geri çağırma, f1 puanı, destek, AUC ve çeşitli ortalama düzeylerine sahip average_precision (mikro, makro ve ağırlıklı) gibi ölçümler için sınıf düzeyinde değerler sağlar. Sınıflandırma ölçümleri bölümündeki ölçüm tanımlarına bakın.
Nesne algılama ve örnek segmentasyonu ölçümleri
Bir görüntü nesnesi algılama veya örnek segmentasyonu modelinden gelen her tahmin bir güvenilirlik puanıyla ilişkilendirilir.
Puan eşiğinden daha yüksek güvenilirlik puanlarına sahip tahminler, tahmin olarak çıkış olarak verilir ve ölçüm hesaplamasında kullanılır. Varsayılan değer modele özgüdür ve hiper parametre ayarlama sayfasında (box_score_threshold hiper parametre) bulunabilir.
Görüntü nesnesi algılama ve örnek segmentasyonu modelinin ölçüm hesaplaması, yer gerçeği ve tahminler arasındaki çakışma alanının yer gerçeği ve tahminlerle birleşim alanına bölünmesiyle hesaplanan bir metrik olan IoU (Birleşim Üzerinde Kesişim) tarafından tanımlanan bir çakışma ölçümüne dayanır. Her tahminden hesaplanan IoU, bir tahminin pozitif tahmin olarak kabul edilmesi için kullanıcı açıklamalı bir temel gerçekle ne kadar çakışması gerektiğini belirleyen IoU eşiği adı verilen bir çakışma eşiğiyle karşılaştırılır. Tahminden hesaplanan IoU çakışma eşiğinden küçükse, tahmin ilişkili sınıf için pozitif bir tahmin olarak kabul edilmez.
Görüntü nesnesi algılama ve örnek segmentasyon modellerinin değerlendirilmesi için birincil ölçüm ortalama ortalama duyarlıktır (mAP). mAP, tüm sınıflarda ortalama duyarlık (AP) ortalama değeridir. Otomatik ML nesne algılama modelleri, aşağıdaki iki popüler yöntemi kullanarak mAP hesaplamasını destekler.
Pascal VOC ölçümleri:
Pascal VOC mAP, nesne algılama/örnek segmentasyonu modelleri için mAP hesaplamasının varsayılan yoludur. Pascal VOC stili mAP yöntemi, kesinlik-duyarlılık eğrisinin bir sürümünün altındaki alanı hesaplar. İlk p(ri), i geri çağırma noktasındaki duyarlık olan tüm benzersiz geri çağırma değerleri için hesaplanır. p(ri) daha sonra herhangi bir geri çağırma r' >= ri için elde edilen maksimum duyarlık ile değiştirilir. Eğrinin bu sürümünde duyarlık değeri monoton olarak azalıyor. Pascal VOC mAP ölçümü varsayılan olarak 0,5 IoU eşiğiyle değerlendirilir. Bu kavramın ayrıntılı bir açıklaması bu blogda bulunabilir.
COCO ölçümleri:
COCO değerlendirme yöntemi, AP hesaplaması için 101 noktalı interpolasyonlu bir yöntem ve 10 IoU eşiği üzerinde ortalama alma yöntemini kullanır. AP@[.5:.95] 0,5 ile 0,95 olan ve adım boyutu 0,05 olan ortalama IoU AP'sine karşılık gelir. Otomatikleştirilmiş ML, COCO yöntemi tarafından tanımlanan AP ve AR (ortalama geri çağırma) dahil, 12 ölçümün tümünü uygulama günlüklerindeki farklı ölçekte kaydederken, metrikler kullanıcı arabirimi yalnızca 0.5 IoU eşiğinde mAP'yi gösterir.
İpucu
Görüntü nesne algılama modelinin değerlendirmesi, hiperparametre, validation_metric_type hiperparametre ayarlama bölümünde açıklandığı gibi, 'coco' olarak ayarlanırsa coco ölçümlerini kullanabilir.
Nesne algılama ve örnek segmentasyonu için dönem düzeyinde ölçümler
mAP, kesinlik ve geri çağırma değerleri, görüntü nesnesi algılama/örnek segmentasyonu modelleri için her dönem sonunda günlüğe kaydedilir. mAP, kesinlik ve geri çağırma ölçümleri de 'per_label_metrics' adıyla sınıf düzeyinde günlüğe kaydedilir. 'per_label_metrics' tablo olarak görüntülenmelidir.
Not
Epok düzeyinde duyarlılık, geri çağırma ve etiket-bazlı ölçütler için ölçümler 'coco' yöntemi kullanıldığında mevcut değildir.
En iyi önerilen AutoML modeli için Sorumlu Yapay Zeka Paneli (önizleme)
Azure Machine Learning Sorumlu Yapay Zeka panosu, Sorumlu yapay zekayı uygulamada etkili ve verimli bir şekilde uygulamanıza yardımcı olacak tek bir arabirim sağlar. Sorumlu yapay zeka panosu yalnızca tablo verileri kullanılarak desteklenir ve yalnızca sınıflandırma ve regresyon modellerinde desteklenir. Aşağıdaki alanlarda çeşitli olgun Sorumlu Yapay Zeka araçlarını bir araya getirir:
- Model performansı ve eşitlik değerlendirmesi
- Veri keşfi
- Makine öğrenmesi yorumlanabilirliği
- Hata analizi
Model değerlendirme ölçümleri ve grafikleri modelin genel kalitesini ölçmek için iyi olsa da modelin eşitliğini inceleme, açıklamalarını görüntüleme (modelin tahminlerini yapmak için hangi veri kümesinin kullanıldığı olarak da bilinir), sorumlu yapay zekayı uygularken hatalarını ve olası belirsizlikleri incelemek temel önem taşır. Bu nedenle otomatik ML, modelinize yönelik çeşitli içgörüleri gözlemlemenize yardımcı olacak sorumlu bir yapay zeka panosu sağlar. Sorumlu yapay zeka panosunu Azure Machine Learning Studio'da nasıl görüntüleyeceğinizi görün.
Bu panoyu kullanıcı arabirimi veya SDK aracılığıyla nasıl oluşturabileceğinizi görün.
Model açıklamaları ve özellik önemleri
Model değerlendirme ölçümleri ve grafikleri modelin genel kalitesini ölçmek için iyi olsa da, sorumlu yapay zeka alıştırması yaparken modelin tahminde bulunmak için hangi veri kümesi özelliklerini kullandığını incelemek önemlidir. Bu nedenle otomatik ML, veri kümesi özelliklerinin göreli katkılarını ölçmek ve raporlamak için bir model açıklamaları panosu sağlar. Azure Machine Learning stüdyosu'nda açıklamalar panosunu nasıl görüntüleyeceğinizi görün.
Not
Yorumlanabilirlik ve en iyi model açıklaması, aşağıdaki algoritmaları en iyi model veya topluluk olarak öneren otomatik ML tahmin denemeleri için kullanılamaz:
- TCNForecaster
- AutoArima
- ExponentialSmoothing
- Peygamber
- Ortalama
- Naif
- Mevsim Ortalaması
- Mevsim Naif
Sonraki adımlar
- Otomatik makine öğrenmesi modeli açıklaması örnek not defterlerini deneyin.
- Ml'ye özgü otomatik sorular için adresine askautomatedml@microsoft.comulaşın.