Öğretici 1: Kredi riskini tahmin edin - Machine Learning Studio (klasik)

ŞUNUN IÇIN GEÇERLIDIR:Bu bir onay işaretidir ve bu da bu makalenin Machine Learning Studio (klasik) için geçerli olduğu anlamına gelir. Machine Learning Studio (klasik) Bu bir X'tir ve bu da bu makalenin Azure Machine Learning için geçerli olmadığı anlamına gelir.Azure Machine Learning

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Bu öğreticide, tahmine dayalı analiz çözümü geliştirme sürecine ayrıntılı bir şekilde göz atacaksınız. Machine Learning Studio'da (klasik) basit bir model geliştirebilirsiniz. Ardından modeli Machine Learning web hizmeti olarak dağıtırsınız. Bu dağıtılan model, yeni verileri kullanarak tahminlerde bulunabilir. Bu öğretici, üç bölümden oluşan bir öğretici serisinin birinci bölümüdür.

Bir kişinin kredi başvurusunda verdiği bilgilere dayanarak kredi riskini tahmin etmeniz gerektiğini varsayalım.

Kredi riski değerlendirmesi karmaşık bir sorundur, ancak bu öğretici bunu biraz basitleştirir. Bunu, Machine Learning Studio (klasik) kullanarak tahmine dayalı analiz çözümü oluşturma örneği olarak kullanacaksınız. Bu çözüm için aMachine Learning Studio (klasik) ve Machine Learning web hizmeti kullanacaksınız.

Bu üç bölümlü öğreticide, genel kullanıma açık kredi riski verileriyle başlayacaksınız. Ardından tahmine dayalı bir model geliştirip eğitebilirsiniz. Son olarak modeli bir web hizmeti olarak dağıtırsınız.

Öğreticinin bu bölümünde:

  • Machine Learning Studio (klasik) çalışma alanı oluşturma
  • Var olan verileri yükleme
  • Deneme oluşturma

Ardından bu denemeyi kullanarak 2. bölümdeki modelleri eğitebilir ve ardından bunları 3. bölümde dağıtabilirsiniz.

Önkoşullar

Bu öğreticide Machine Learning Studio'yu (klasik) daha önce en az bir kez kullandığınız ve makine öğrenmesi kavramları hakkında bilgi sahibi olduğunuz varsayılır. Bununla birlikte, bir uzman olduğunuz da varsayılmaz.

Machine Learning Studio'yu (klasik) daha önce hiç kullanmadıysanız, Machine Learning Studio'da (klasik) ilk veri bilimi denemenizi oluşturma hızlı başlangıcıyla başlamak isteyebilirsiniz. Hızlı başlangıç sizi ilk kez Machine Learning Studio'ya (klasik) götürür. Öğreticide modülleri sürükleyip denemenize bırakma, birbirine bağlama, denemeyi çalıştırma ve sonuçları görme konularında temel bilgiler verilir.

İpucu

Bu öğreticide geliştirdiğiniz denemenin çalışan bir kopyasını Azure AI Galerisi'nde bulabilirsiniz. Öğretici - Kredi riskini tahmin etme bölümüne gidin ve denemenin bir kopyasını Machine Learning Studio (klasik) çalışma alanınıza indirmek için Studio'da Aç'a tıklayın.

Machine Learning Studio (klasik) çalışma alanı oluşturma

Machine Learning Studio'yu (klasik) kullanmak için bir Machine Learning Studio (klasik) çalışma alanınız olmalıdır. Bu çalışma alanı, denemeleri oluşturmak, yönetmek ve yayımlamak için ihtiyacınız olan araçları içerir.

Çalışma alanı oluşturmak için bkz. Machine Learning Studio (klasik) çalışma alanı oluşturma ve paylaşma.

Çalışma alanınız oluşturulduktan sonra Machine Learning Studio'yu (klasik) (https://studio.azureml.net/Home açın. Birden fazla çalışma alanınız varsa, pencerenin sağ üst köşesindeki araç çubuğunda çalışma alanını seçebilirsiniz.

Studio'da çalışma alanı seçme (klasik)

İpucu

Çalışma alanının sahibiyseniz, başkalarını çalışma alanına davet ederek üzerinde çalıştığınız denemeleri paylaşabilirsiniz. Bunu AYARLAR sayfasındaki Machine Learning Studio'da (klasik) yapabilirsiniz. Her kullanıcı için yalnızca Microsoft hesabına veya kuruluş hesabına ihtiyacınız vardır.

AYARLAR sayfasında KULLANICILAR'a tıklayın ve sonra pencerenin alt kısmındaki DAHA FAZLA KULLANICI DAVET ET'e tıklayın.

Var olan verileri yükleme

Kredi riski için tahmine dayalı bir model geliştirmek için modeli eğitmek ve test etmek için kullanabileceğiniz verilere ihtiyacınız vardır. Bu öğretici için UC Irvine Machine Learning deposundaki "UCI Statlog (Almanca Kredi Verileri) Veri Kümesini" kullanacaksınız. Burada bulabilirsiniz:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

german.data adlı dosyayı kullanacaksınız. Bu dosyayı yerel sabit sürücünüze indirin.

german.data veri kümesi, kredi için geçmiş 1000 başvuru sahibi için 20 değişkenlik satırlar içerir. Bu 20 değişken, veri kümesinin her kredi başvuru sahibi için tanımlayıcı özellikleri sağlayan özellik kümesini ( özellik vektör) temsil eder. Her satırdaki ek bir sütun, başvuranın hesaplanan kredi riskini temsil eder ve 700 başvuru sahibi düşük kredi riski ve 300'lü yüksek risk olarak tanımlanır.

UCI web sitesi, bu veriler için özellik vektörünün özniteliklerinin açıklamasını sağlar. Bu veriler finansal bilgileri, kredi geçmişini, çalışma durumunu ve kişisel bilgileri içerir. Her başvuru sahibi için düşük veya yüksek kredi riski olup olmadığını belirten ikili bir derecelendirme verilmiştir.

Tahmine dayalı analiz modelini eğitmek için bu verileri kullanacaksınız. İşiniz bittiğinde modelinizin yeni bir kişi için özellik vektörlerini kabul edebilmesi ve düşük veya yüksek kredi riski olup olmadığını tahmin edebilmesi gerekir.

İşte ilginç bir dönüş.

UCI web sitesindeki veri kümesinin açıklaması, bir kişinin kredi riskini yanlış sınıflandırmanız durumunda maliyetinden bahseder. Model, düşük kredi riski olan biri için yüksek kredi riski tahmininde bulunuyorsa, model yanlış sınıflandırma yapmıştır.

Ancak ters sınıflandırma, finans kurumuna beş kat daha maliyetlidir: model aslında yüksek kredi riski olan biri için düşük kredi riski öngörüyorsa.

Bu nedenle, modelinizi bu ikinci yanlış sınıflandırma türünün maliyetinin diğer şekilde yanlış sınıflandırmaktan beş kat daha yüksek olması için eğitmek istiyorsunuz.

Denemenizde modeli eğitirken bunu yapmanın basit bir yolu, yüksek kredi riski olan birini temsil eden girişlerin çoğaltılarak (beş kez) yapılmasıdır.

Daha sonra model, yüksek riskli olan bir kişiyi düşük kredi riski olarak yanlış sınıflandırırsa, model aynı yanlış sınıflandırmayı her yineleme için bir kez olmak üzere beş kez yapar. Bu, eğitim sonuçlarında bu hatanın maliyetini artırır.

Veri kümesi biçimini dönüştürme

Özgün veri kümesi boş ayrılmış bir biçim kullanır. Machine Learning Studio (klasik), virgülle ayrılmış değer (CSV) dosyasıyla daha iyi çalıştığından boşlukları virgülle değiştirerek veri kümesini dönüştüreceksiniz.

Bu verileri dönüştürmenin birçok yolu vardır. Bunun bir yolu aşağıdaki Windows PowerShell komutunu kullanmaktır:

cat german.data | %{$_ -replace " ",","} | sc german.csv  

Bir diğer yol da Unix sed komutunu kullanmaktır:

sed 's/ /,/g' german.data > german.csv

Her iki durumda da, denemenizde kullanabileceğiniz german.csv adlı bir dosyada verilerin virgülle ayrılmış bir sürümünü oluşturdunuz.

Veri kümesini Machine Learning Studio'ya yükleme (klasik)

Veriler CSV biçimine dönüştürüldükten sonra Machine Learning Studio'ya (klasik) yüklemeniz gerekir.

  1. Machine Learning Studio (klasik) giriş sayfasını (https://studio.azureml.net ) açın.

  2. Menüye tıklayın Bu menü simgesidir - üç yığılmış çizgi. Pencerenin sol üst köşesinde Azure Machine Learning'e tıklayın, Studio'yu seçin ve oturum açın.

  3. Pencerenin alt kısmındaki +YENİ'ye tıklayın.

  4. VERİ KÜMESİ'ne tıklayın.

  5. YEREL DOSYADAN'ı seçin.

    Yerel dosyadan veri kümesi ekleme

  6. Yeni veri kümesi karşıya yükle iletişim kutusunda Gözat'a tıklayın ve oluşturduğunuz german.csv dosyasını bulun.

  7. Veri kümesi için bir ad girin. Bu öğretici için "UCI Alman Kredi Kartı Verileri" olarak adlandırabilirsiniz.

  8. Veri türü için Üst bilgi içermeyen Genel CSV Dosyası (.nh.csv) öğesini seçin.

  9. İstersenize bir açıklama ekleyin.

  10. Tamam onay işaretine tıklayın.

    Veri kümesini karşıya yükleme

Bu işlem, verileri bir denemede kullanabileceğiniz bir veri kümesi modülüne yükler.

Studio (klasik) penceresinin sol kısmındaki DATASETS sekmesine tıklayarak Studio'ya (klasik) yüklediğiniz veri kümelerini yönetebilirsiniz.

Veri kümelerini yönetme

Diğer veri türlerini bir denemeye aktarma hakkında daha fazla bilgi için bkz. Eğitim verilerinizi Machine Learning Studio'ya (klasik) aktarma.

Deneme oluşturma

Bu öğreticinin sonraki adımı, Yüklediğiniz veri kümesini kullanan Machine Learning Studio'da (klasik) bir deneme oluşturmaktır.

  1. Studio'da (klasik) pencerenin alt kısmındaki +YENİ'ye tıklayın.

  2. DENEY'i ve ardından "Boş Deneme"yi seçin.

    Yeni bir deneme oluşturma

  3. Tuvalin üst kısmındaki varsayılan deneme adını seçin ve anlamlı bir adla yeniden adlandırın.

    Denemeyi yeniden adlandırma

    İpucu

    Özellikler bölmesinde denemenin Özet ve Açıklama bilgilerini doldurmak iyi bir uygulamadır. Bu özellikler, daha sonra deneye bakan herkesin hedeflerinizi ve metodolojinizi anlaması için denemeyi belgeleme fırsatı verir.

    Deneme özellikleri

  4. Deneme tuvalinin solundaki modül paletinde Kayıtlı Veri Kümeleri'ni genişletin.

  5. Veri Kümelerim altında oluşturduğunuz veri kümesini bulun ve tuvale sürükleyin. Ayrıca, paletin üzerindeki Arama kutusuna adı girerek de veri kümesini bulabilirsiniz.

    Denemeye veri kümesi ekleme

Verileri hazırlama

Verilerin ilk 100 satırını ve veri kümesinin tamamı için bazı istatistiksel bilgileri görüntüleyebilirsiniz: Veri kümesinin çıkış bağlantı noktasına (alttaki küçük daire) tıklayın ve Görselleştir'i seçin.

Veri dosyası sütun başlıklarıyla birlikte gelmediğinden, Studio (klasik) genel başlıklar (Col1, Col2 vb.) sağlamıştır. İyi başlıklar model oluşturmak için gerekli değildir, ancak denemedeki verilerle çalışmayı kolaylaştırır. Ayrıca, sonunda bu modeli bir web hizmetinde yayımladığınızda, başlıklar sütunları hizmetin kullanıcısına tanımlamaya yardımcı olur.

Meta Verileri Düzenle modülünü kullanarak sütun başlıkları ekleyebilirsiniz.

Veri kümesiyle ilişkili meta verileri değiştirmek için Meta Verileri Düzenle modülünü kullanırsınız. Bu durumda, sütun başlıkları için daha kolay adlar sağlamak için bunu kullanırsınız.

Meta Verileri Düzenle'yi kullanmak için önce hangi sütunların değiştirileceğini belirtirsiniz (bu örnekte, bunların tümü).) Ardından, bu sütunlarda gerçekleştirilecek eylemi belirtirsiniz (bu durumda sütun başlıklarını değiştirirsiniz.)

  1. Modül paletinde , Arama kutusuna "metadata" yazın. Meta Verileri Düzenle modülü listesinde görünür.

  2. Meta Verileri Düzenle modülüne tıklayıp tuvale sürükleyin ve daha önce eklediğiniz veri kümesinin altına bırakın.

  3. Veri kümesini Meta Verileri Düzenle'ye bağlayın: Veri kümesinin çıkış bağlantı noktasına (veri kümesinin altındaki küçük daire) tıklayın, Meta Verileri Düzenle giriş bağlantı noktasına (modülün üst kısmındaki küçük daire) sürükleyin ve fare düğmesini bırakın. Tuvalde gezinseniz bile veri kümesi ve modül bağlı kalır.

    Deneme şimdi şöyle görünmelidir:

    Düzenleme Meta Verileri Ekleme

    Kırmızı ünlem işareti, bu modülün özelliklerini henüz ayarlamadığınıza işaret eder. Bundan sonra o işlemi yapacaksınız.

    İpucu

    Modüle çift tıklayıp metin girerek bir modüle yorum ekleyebilirsiniz. Bu, modülün denemenizde ne işe yaradığını bir bakışta görmenize yardımcı olabilir. Bu durumda , Meta Verileri Düzenle modülüne çift tıklayın ve "Sütun başlıkları ekle" açıklamasını yazın. Metin kutusunu kapatmak için tuvalde başka bir yere tıklayın. Açıklamayı görüntülemek için modüldeki aşağı oka tıklayın.

    Açıklama eklenmiş meta veri modülünü düzenleme

  4. Meta Verileri Düzenle'yi seçin ve tuvalin sağındaki Özellikler bölmesinde Sütun seçiciyi başlat'a tıklayın.

  5. Sütunları seç iletişim kutusunda, Kullanılabilir Sütunlar'daki tüm satırları seçin ve bunları Seçili Sütunlar'a taşımak için tıklayın>. İletişim kutusu şöyle görünmelidir:

    Tüm sütunların seçili olduğu Sütun Seçici

  6. Tamam onay işaretine tıklayın.

  7. Özellikler bölmesine döndüğünüzde Yeni sütun adları parametresini arayın. Bu alana, veri kümesindeki 21 sütun için virgülle ayrılmış ve sütun sırasına göre bir ad listesi girin. UCI web sitesindeki veri kümesi belgelerinden sütun adlarını alabilir veya kolaylık sağlamak için aşağıdaki listeyi kopyalayıp yapıştırabilirsiniz:

    Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk  
    

    Özellikler bölmesi şöyle görünür:

    Meta Verileri Düzenleme Özellikleri

    İpucu

    Sütun başlıklarını doğrulamak istiyorsanız denemeyi çalıştırın (deneme tuvalinin altındaki ÇALıŞTıR'a tıklayın). Çalıştırma tamamlandığında ( Meta Verileri Düzenle'de yeşil bir onay işareti görünür), Meta Verileri Düzenle modülünün çıkış bağlantı noktasına tıklayın ve Görselleştir'i seçin. Deneme aracılığıyla verilerin ilerleme durumunu görüntülemek için herhangi bir modülün çıkışını aynı şekilde görüntüleyebilirsiniz.

Eğitim ve test veri kümeleri oluşturma

Modeli eğitmek için bazı verilere ve test etmek için bazı verilere ihtiyacınız vardır. Bu nedenle denemenin bir sonraki adımında veri kümesini iki ayrı veri kümesine bölersiniz: biri modelimizi eğitip diğeri test için.

Bunu yapmak için Verileri Bölme modülünü kullanırsınız.

  1. Verileri Bölme modülünü bulun, tuvale sürükleyin ve Meta Verileri Düzenleme modülüne bağlayın.

  2. Varsayılan olarak, bölme oranı 0,5'tir ve Rastgele bölme parametresi ayarlanır. Bu, verilerin rastgele yarısının Verileri Bölme modülünün bir bağlantı noktasından, yarısının ise diğer bağlantı noktasından çıkışının olduğu anlamına gelir. Eğitim ve test verileri arasındaki bölmeyi değiştirmek için bu parametreleri ve Rastgele tohum parametresini ayarlayabilirsiniz. Bu örnekte, bunları olduğu gibi bırakırsınız.

    İpucu

    İlk çıkış veri kümesindeki satırların kesiri özelliği, verilerin ne kadarının sol çıkış bağlantı noktasından çıkış yapılacağını belirler. Örneğin, oranı 0,7 olarak ayarlarsanız verilerin %70'i sol bağlantı noktasından, %30'u da sağ bağlantı noktasından çıkıştır.

  3. Verileri Bölme modülüne çift tıklayın ve "Eğitim/test verileri %50 bölünür" açıklamasını girin.

Verileri Bölme modülünün çıkışlarını istediğiniz gibi kullanabilirsiniz, ancak şimdi eğitim verileri olarak sol çıkışı, test verileri olarak da sağ çıkışı kullanmayı seçelim.

Önceki adımda belirtildiği gibi, yüksek kredi riskini düşük olarak yanlış sınıflandırmanın maliyeti, düşük kredi riskini yüksek olarak yanlış sınıflandırma maliyetinden beş kat daha yüksektir. Bunu hesaba katmanız için bu maliyet işlevini yansıtan yeni bir veri kümesi oluşturursunuz. Yeni veri kümesinde her yüksek riskli örnek beş kez çoğaltılırken, her düşük riskli örnek çoğaltılmaz.

Bu çoğaltmayı R kodunu kullanarak yapabilirsiniz:

  1. R Betiği Yürütme modülünü bulup deneme tuvaline sürükleyin.

  2. Verileri Bölme modülünün sol çıkış bağlantı noktasını R Betiği Yürütme modülünün ilk giriş bağlantı noktasına ("Dataset1") bağlayın.

  3. R Betiği Yürütme modülüne çift tıklayın ve "Maliyet ayarlamasını ayarla" açıklamasını girin.

  4. Özellikler bölmesinde, R Betiği parametresindeki varsayılan metni silin ve şu betiği girin:

    dataset1 <- maml.mapInputPort(1)
    data.set<-dataset1[dataset1[,21]==1,]
    pos<-dataset1[dataset1[,21]==2,]
    for (i in 1:5) data.set<-rbind(data.set,pos)
    maml.mapOutputPort("data.set")
    

    R Betiği Yürütme modülündeki R betiği

Eğitim ve test verilerinin aynı maliyet ayarlamasına sahip olması için Verileri Bölme modülünün her çıkışı için aynı çoğaltma işlemini yapmanız gerekir. Bunu yapmanın en kolay yolu, az önce oluşturduğunuz R Betiğini Yürütme modülünü çoğaltıp Verileri Bölme modülünün diğer çıkış bağlantı noktasına bağlamaktır.

  1. R Betiği Yürütme modülüne sağ tıklayın ve Kopyala'yı seçin.

  2. Deneme tuvalini sağ tıklatın ve Yapıştır'ı seçin.

  3. Yeni modülü konuma sürükleyin ve ardından Verileri Bölme modülünün sağ çıkış bağlantı noktasını bu yeni R Betiğini Yürüt modülünün ilk giriş bağlantı noktasına bağlayın.

  4. Tuvalin en altında Çalıştır'a tıklayın.

İpucu

R Betiği Yürütme modülünün kopyası, özgün modülle aynı betiği içerir. Tuvale bir modül kopyalayıp yapıştırdığınızda, kopya özgün modülün tüm özelliklerini korur.

Denememiz şu şekilde görünür:

Split modülü ve R betikleri ekleme

Denemelerinizde R betiklerini kullanma hakkında daha fazla bilgi için bkz. Denemenizi R ile genişletme.

Kaynakları temizleme

Bu makaleyi kullanarak oluşturduğunuz kaynaklara artık ihtiyacınız yoksa ücret ödememek için bunları silin. Ürün içi kullanıcı verilerini dışarı aktarma ve silme makalesinde nasıl yapılacağını öğrenin.

Sonraki adımlar

Bu öğreticide şu adımları tamamladınız:

  • Machine Learning Studio (klasik) çalışma alanı oluşturma
  • Mevcut verileri çalışma alanına yükleme
  • Deneme oluşturma

Artık bu veriler için modelleri eğitmeye ve değerlendirmeye hazırsınız.