Modeli Çapraz Doğrulama

Makale
06/01/2023

Bu makalede, Azure Machine Learning tasarımcısında Modeli Çapraz Doğrulama bileşeninin nasıl kullanılacağı açıklanmaktadır. Çapraz doğrulama genellikle makine öğrenmesinde hem veri kümesinin değişkenliğini hem de bu veriler aracılığıyla eğitilen tüm modellerin güvenilirliğini değerlendirmek için kullanılan bir tekniktir.

Modeli Çapraz Doğrulama bileşeni, eğitilmemiş bir sınıflandırma veya regresyon modeliyle birlikte etiketli bir veri kümesi girişi olarak alır. Veri kümesini bir dizi alt kümeye (katlama) böler, her katlama üzerinde bir model oluşturur ve ardından her katlama için bir doğruluk istatistikleri kümesi döndürür. Tüm katlamaların doğruluk istatistiklerini karşılaştırarak veri kümesinin kalitesini yorumlayabilirsiniz. Daha sonra modelin verilerdeki varyasyonlara duyarlı olup olmadığını anlayabilirsiniz.

Çapraz Doğrulama Modeli, tahminlerin güvenilirliğini değerlendirebilmeniz için veri kümesi için tahmin edilen sonuçları ve olasılıkları da döndürür.

Çapraz doğrulama nasıl çalışır?

Çapraz doğrulama, eğitim verilerini rastgele katlamalara böler.

Daha önce veri kümesini bölümlemediyseniz algoritma varsayılan olarak 10 katlanır. Veri kümesini farklı sayıda katlamaya bölmek için Bölüm ve Örnek bileşenini kullanabilir ve kaç katlama kullanılacağını belirtebilirsiniz.
Bileşen, doğrulama için kullanılacak kat 1'deki verileri bir kenara bırakır. (Buna bazen ayrı tutma katlama denir.) Bileşen, modeli eğitmek için kalan katlamaları kullanır.

Örneğin, beş kat oluşturursanız, bileşen çapraz doğrulama sırasında beş model oluşturur. Bileşen, verilerin beşte dörtünü kullanarak her modeli eğiter. Her modeli kalan beşte bir üzerinde test eder.
Her katlama için modelin test edilmesi sırasında bileşen birden çok doğruluk istatistiğini değerlendirir. Bileşenin kullandığı istatistikler, değerlendirdiğiniz modelin türüne bağlıdır. Sınıflandırma modellerini ve regresyon modellerini değerlendirmek için farklı istatistikler kullanılır.
Tüm katlamalar için derleme ve değerlendirme işlemi tamamlandığında, Çapraz Doğrulama Modeli tüm veriler için bir dizi performans ölçümü ve puanlanan sonuçlar oluşturur. Tek katlamanın yüksek veya düşük doğruluğu olup olmadığını görmek için bu ölçümleri gözden geçirin.

Çapraz doğrulamanın avantajları

Modeli değerlendirmenin farklı ve yaygın bir yolu, Verileri Bölme kullanarak verileri bir eğitim ve test kümesine bölmek ve ardından modeli eğitim verilerinde doğrulamaktır. Ancak çapraz doğrulama bazı avantajlar sunar:

Çapraz doğrulama daha fazla test verisi kullanır.

Çapraz doğrulama, modelin performansını belirtilen parametrelerle daha büyük bir veri alanında ölçer. Diğer bir ifadeyle çapraz doğrulama, bir bölüm yerine hem eğitim hem de değerlendirme için eğitim veri kümesinin tamamını kullanır. Buna karşılık, bir modeli rastgele bölmeden oluşturulan verileri kullanarak doğrularsanız, modeli genellikle kullanılabilir verilerin yalnızca yüzde 30'unda veya daha azında değerlendirirsiniz.

Ancak çapraz doğrulama, modeli daha büyük bir veri kümesi üzerinde birden çok kez eğittiği ve doğruladığı için çok daha yoğun işlem gücü kullanır. Rastgele bölmede doğrulamadan çok daha uzun sürer.
Çapraz doğrulama hem veri kümesini hem de modeli değerlendirir.

Çapraz doğrulama yalnızca modelin doğruluğunu ölçmez. Ayrıca veri kümesinin ne kadar temsili olduğu ve modelin verilerdeki çeşitlemelere ne kadar duyarlı olabileceği hakkında da fikir verir.

Çapraz Doğrulama Modeli'ni kullanma

Veri kümeniz büyükse çapraz doğrulamanın çalıştırılması uzun sürebilir. Bu nedenle, modelinizi oluşturma ve test etme işleminin ilk aşamasında Çapraz Doğrulama Modeli'ni kullanabilirsiniz. Bu aşamada, model parametrelerinin iyiliğini değerlendirebilirsiniz (hesaplama süresinin tolere edilebilir olduğu varsayılarak). Ardından Modeli Eğitme ve Modeli Değerlendirme bileşenleriyle oluşturulan parametreleri kullanarak modelinizi eğitebilir ve değerlendirebilirsiniz.

Bu senaryoda, Modeli Çapraz Doğrulama'yı kullanarak modeli eğitip test edebilirsiniz.

İşlem hattınıza Çapraz Doğrulama Modeli bileşenini ekleyin. Bunu Azure Machine Learning tasarımcısında , Model Puanlama ve Değerlendirme kategorisinde bulabilirsiniz.
Herhangi bir sınıflandırma veya regresyon modelinin çıkışını Bağlan.

Örneğin, sınıflandırma için İki Sınıf Artırılmış Karar Ağacı kullanıyorsanız modeli istediğiniz parametrelerle yapılandırın. Ardından, sınıflandırıcının Eğitilmemiş model bağlantı noktasından bir bağlayıcıyı Modeli Çapraz Doğrulama'nın eşleşen bağlantı noktasına sürükleyin.

Bahşiş

Modeli eğitmek zorunda değilsiniz çünkü Modeli Çapraz Doğrulama modeli değerlendirmenin bir parçası olarak otomatik olarak eğitmektedir.
Çapraz Doğrulama Modeli'nin Veri Kümesi bağlantı noktasında etiketli eğitim veri kümelerini bağlayın.
Modeli Çapraz Doğrula'nın sağ panelinde Sütunu düzenle'ye tıklayın. Sınıf etiketini içeren tek sütunu veya öngörülebilir değeri seçin.
Aynı veriler üzerinde ardışık çalıştırmalarda çapraz doğrulama sonuçlarını yinelemek istiyorsanız Random seed parametresi için bir değer ayarlayın.
İşlem hattını gönderin.
Raporların açıklaması için Sonuçlar bölümüne bakın.

Sonuçlar

Tüm yinelemeler tamamlandıktan sonra Modeli Çapraz Doğrulama, veri kümesinin tamamı için puanlar oluşturur. Ayrıca modelin kalitesini değerlendirmek için kullanabileceğiniz performans ölçümleri de oluşturur.

Puanlanan sonuçlar

Bileşenin ilk çıkışı, tahmin edilen bazı değerler ve ilgili olasılıklarla birlikte her satır için kaynak verileri sağlar.

Sonuçları görüntülemek için işlem hattında Modeli Çapraz Doğrula bileşenine sağ tıklayın. Puanlanan sonuçları görselleştir'i seçin.

Yeni sütun adı	Açıklama
Puanlanmış Etiketler	Bu sütun veri kümesinin sonuna eklenir. Her satır için tahmin edilen değeri içerir.
Puanlanmış Olasılıklar	Bu sütun veri kümesinin sonuna eklenir. Puanlanan Etiketler'deki değerin tahmini olasılığını gösterir.
Katlama Numarası	Çapraz doğrulama sırasında her veri satırının atandığı katlamanın sıfır tabanlı dizinini gösterir.

Değerlendirme sonuçları

İkinci rapor katlara göre gruplandırılır. Yürütme sırasında Çapraz Doğrulama Modeli'nin eğitim verilerini rastgele n katlara böldüğünü unutmayın (varsayılan olarak 10). Veri kümesi üzerindeki her yinelemede, Çapraz Doğrulama Modeli doğrulama veri kümesi olarak bir katlama kullanır. Modeli eğitmek için kalan n-1 katlarını kullanır. N modellerinin her biri diğer tüm katlamalardaki verilere göre test edilir.

Bu raporda, katlamalar dizin değerine göre artan düzende listelenir. Başka bir sütunda sıralamak için sonuçları veri kümesi olarak kaydedebilirsiniz.

Sonuçları görüntülemek için işlem hattında Modeli Çapraz Doğrula bileşenine sağ tıklayın. Değerlendirme sonuçlarını katlayarak görselleştir'i seçin.

Sütun adı	Açıklama
Katlama numarası	Her katlama için bir tanımlayıcı. Beş kat oluşturmuş olsaydınız, 0 ile 4 olarak numaralandırılmış beş veri alt kümesi olabilir.
Katlanmış örnek sayısı	Her katlama için atanan satır sayısı. Kabaca eşit olmalıdırlar.

Bileşen, değerlendirdiğiniz modelin türüne bağlı olarak her katlama için aşağıdaki ölçümleri de içerir:

Sınıflandırma modelleri: Duyarlık, geri çağırma, F puanı, AUC, doğruluk
Regresyon modelleri: Ortalama mutlak hata, kök ortalama kare hatası, göreli mutlak hata, göreli kare hata ve belirleme katsayısı

Teknik notlar

Çapraz doğrulama için kullanmadan önce veri kümelerini normalleştirmek en iyi yöntemdir.
Çapraz Doğrulama Modeli, hesaplama açısından çok daha yoğundur ve tamamlanması, modeli rastgele bölünmüş bir veri kümesi kullanarak doğrulamanıza kıyasla daha uzun sürer. Bunun nedeni, Modeli Çapraz Doğrulama'nın modeli birden çok kez eğitip doğrulamasıdır.
Modelin doğruluğunu ölçmek için çapraz doğrulama kullandığınızda veri kümesini eğitim ve test kümelerine bölmeniz gerekmez.

Sonraki adımlar

Bkz. Azure Machine Learning için kullanılabilen bileşenler kümesi.