Aracılığıyla paylaş


veri dönüştürme-sayılarla Learning

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

bu makalede, Machine Learning Studio 'daki (klasik) sayı tabanlı bir özelliği destekleyen modüller açıklanmaktadır.

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

sayımlar ile Learning, değerlerin sayımlarını temel alan bir veri kümesi özelliklerinin daha hızlı bir şekilde oluşturulması için etkili bir yoldur. Bu kategorideki modülleri, bir dizi sayı ve özellik oluşturmak için kullanabilirsiniz. Daha sonra, yeni verilerden yararlanmak veya iki sayı verisi kümesini birleştirmek için sayıları ve özellikleri güncelleştirebilirsiniz.

Sayı tabanlı korleştirme hakkında

Sayı tabanlı korunun temel fikri, sayıları hesaplarken, en önemli bilgileri hangi sütunların içerdiğini hızla ve kolayca alabilirsiniz. Modül bir değerin kaç kez göründüğünü sayar ve sonra bu bilgileri bir modele giriş için bir özellik olarak sağlar.

kredi kartı işlemini doğruladığınızı Imagine. Bu işlemin nereden geldiği önemli bir bilgi parçasıdır. İşlem kaynağının en yaygın kodlamalarının biri posta kodudur. Ancak, hesabı için 40.000 posta kodu, posta kodu ve coğrafi kodların birçoğu olabilir. Modeliniz 40.000 daha fazla parametre öğrenme kapasitesine sahip mi? Bu kapasiteye izin verirseniz, bu kapasitenin üzerine kaçmasını engellemek için yeterli eğitim verisi mi var?

Çok sayıda örnek içeren iyi verileriniz varsa, bu tür hassas yerel ayrıntı düzeyi güçlü olabilir. Ancak, küçük bir yerde sahte bir işlemin yalnızca bir örneğine sahipseniz, bu yer olan tüm işlemlerin hatalı olması veya yeterli veri bulundurmayacağınız anlamına gelir.

Bir çözüm, sayımlar hakkında bilgi almak için kullanılır. 40.000 daha fazla özelliğe giriş yapmak yerine, her posta kodu için sahtekarlık sayısını ve oranlarını gözlemleyebilirsiniz. Bu sayıları özellik olarak kullanarak, her bir değer için kanıt gücü hakkında bilgi alırsınız. Ayrıca, sayımların ilgili istatistiklerini kodlayarak öğrenici, yaklaşımını ne zaman değişeceğinize karar vermek için istatistikleri kullanabilir, bunun yerine bilgileri almak için diğer özellikleri kullanır.

Sayı tabanlı öğrenme, birçok nedenden dolayı çekici değildir. Sayı tabanlı öğrenme sayesinde, daha az parametre gerektiren daha az özelliğe sahip olursunuz. Daha az parametre daha hızlı öğrenme, daha hızlı tahmin, daha küçük tahminler ve daha fazla uyum için daha az potansiyel hale gelir.

Sayım tabanlı özellikler nasıl oluşturulur

Temel bir örnek, sayım tabanlı özelliklerin nasıl oluşturulup uygulanacağını göstermeye yardımcı olabilir. Etiketler ve girişler ile bunun gibi aşağıdaki tabloya sahip olduğunuzu varsayalım. Her durumda (veya satır veya örnek) sütunlarda bir değerler kümesi vardır. Bu örnekte, değerler A ve B ' dir.

Etiket sütunu Giriş değeri
0 A
0 A
1 A
0 B
1 B
1 B
1 B

Bunlar, sayı tabanlı özellikler oluşturmak için gerçekleştirmeniz gereken adımlardır:

  1. Belirli bir değer kümesi için, bu veri kümesindeki aynı değere sahip diğer tüm durumları bulun. Bu durumda, A ve dört B örneğinin üç örneği vardır.
  2. Her bir değerin sınıf üyeliğini kendi kendine özellik olarak say. Bu durumda, küçük bir matris alırsınız: bir = 0; olduğunda iki durum vardır. biri = 1; büyük bir durum B = 0; ve B = 1 olduğu üç durum.
  3. Bu matris temelinde, çeşitli sayı tabanlı özellikler alırsınız. Bunlar, günlük-ODDS oranının hesaplanması ve her bir hedef sınıf için sayımlar içerir. Sonraki bölümdeki tablo, verileri görüntüler.

Sayı tabanlı özelliklerin örnek tablosu

Etiketle 0_0_Class000_Count 0_0_Class001_Count 0_0_Class000_LogOdds 0_0_IsBackoff
0 2 1 0,510826 0
0 2 1 0,510826 0
1 2 1 0,510826 0
0 1 3 -0,8473 0
1 1 3 -0,8473 0
1 1 3 -0,8473 0
1 1 3 -0.8473 0

Örnekler

Microsoft Machine Learning tahmin modelleri oluşturmak için Machine Learning kullanma makalesinde makine öğrenmesinde sayıların nasıl kullanılacağına ilişkin ayrıntılı bir kılavuz sağlar. Makale, sayı tabanlı modellemenin etkinliğini diğer yöntemlerle karşılar.

Teknik notlar

Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.

Günlük kaybı değerinin hesaplanması

Günlük kaybı değeri, düz günlük olasılıkları değildir. Bu durumda, günlük olasılık hesaplamalarını düz hale etmek için önceki dağıtım kullanılır.

İkili sınıflandırma için kullanılan bir veri kümeye sahip olduğunu varsayalım. Bu veri kümesinde, 0 sınıfının önceki sıklığı olur p_0ve 1. sınıf için önceki sıklık olur p_1 = 1 – p_0. Belirli bir eğitim örneği özelliği için 0 sınıfının sayısı ve x_01. sınıf için sayı olur x_1.

Bu varsayımlar kapsamında günlük LogOdds = Log(x0 + c * p0) – Log (x1 + c\p1)olasılığı olarak hesaplanır; c burada, kullanıcı tarafından ayarlanabiliyor önceki katsayıdır. Log işlevi doğal tabanı kullanır.

Başka bir deyişle, her sınıf için i:

Log_odds[i] = Log( (count[i] + prior_coefficient * prior_frequency[i]) / (sum_of_counts - count[i]) + prior_coefficient \* (1 - prior_frequency[i]))

Önceki katsayı pozitifse, günlük olasılıkları ile farklı olabilir Log(count[i] / (sum_of_counts – count[i])).

Bazı öğeler için neden günlük olasılıkları hesap değil?

Varsayılan olarak, sayımı 10'dan az olan tüm öğeler "çöp kutusu" adlı tek bir demette toplanır. Sayı Tablosu Parametrelerini Değiştir modülünde Çöp kutusu eşiği seçeneğini kullanarak bu değeri değiştirebilirsiniz .

Modül listesi

Counts Learning aşağıdaki modülleri içerir:

  • Sayım Dönüştürmesi Oluşturma: Bir veri kümesinden sayı tablosu ve sayı tabanlı özellikler oluşturur, ardından tabloyu ve özellikleri dönüşüm olarak kaydeder.
  • Sayı Tablosu Dışarı Aktar: Sayım dönüştürmeden bir sayı tablosu dışarı aktarın. Bu modül, Derleme Sayısı Tablosu (kullanım dışı) ve Count Özellik Kazandırıcı (kullanım dışı) kullanarak sayı tabanlı özellikler oluşturan denemelerle geriye dönük uyumluluğu destekler.
  • İçeri Aktarma Sayısı Tablosu: Mevcut bir sayı tablosu içeri aktarıldı. Bu modül, Derleme Sayısı Tablosu (kullanım dışı) ve Count Özellik Kazandırıcı (kullanım dışı) kullanarak sayı tabanlı özellikler oluşturan denemelerle geriye dönük uyumluluğu destekler. Modül, dönüştürmeleri saymak için sayı tablolarının dönüşümünü destekler.
  • Birleştirme Sayısı Dönüştürmesi: Sayı tabanlı iki özellik kümelerini birleştirin.
  • Tablo Parametrelerini Değiştir: Mevcut sayı tablosundan türetilen sayı tabanlı özellikleri değiştirir.

Ayrıca bkz.