Aracılığıyla paylaş


Derleme Sayma Dönüşümü

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Birden çok veri kümesine dönüştürmeyi uygulayabilecek şekilde sayı tablolarını özelliklere dönüştüren bir dönüşüm oluşturur

Kategori: Learning ile birlikte

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, eğitim verilerini analiz etmek için Machine Learning Studio'daki (klasik) Derleme Sayma Dönüştürme modülünün nasıl kullanımı açıklanmıştır. Bu verilerden, modül bir sayı tablosu ve tahmine dayalı modelde kullanıla bir dizi sayı tabanlı özellik derlemek için kullanılır.

Sayı tablosu, belirtilen etiket sütununa göre tüm özellik sütunlarının ortak dağıtımını içerir. Bu tür istatistikler, en fazla bilgi değerine sahip sütunları belirlemek için kullanışlıdır. Sayı tabanlı özellik kazandırma , bu tür özellikler özgün eğitim verilerinden daha küçük olduğundan ve en yararlı bilgilerin hepsini yakalayandan kullanışlıdır. Sayıların yeni sayı tabanlı özellikler kümesine nasıl dönüştürülmesi için modül parametrelerini kullanabilirsiniz.

Sayımları oluşturma ve bunları özelliklere dönüştürme işlemini ilgili veriler üzerinde yeniden kullanmak üzere dönüştürme olarak kaydedebilirsiniz. Ayrıca, yeni sayı kümesi oluşturmak zorunda kalmadan özellik dizisini değiştirebilir veya sayımları ve özellikleri başka bir sayı ve özellik kümesiyle birleştirebilirsiniz.

Sayı tabanlı özellikleri yeniden kullanma ve yeniden uygulama özelliği aşağıdaki gibi senaryolarda yararlıdır:

  • Veri kümenizin kapsamı veya bakiyesi geliştirmek için yeni veriler kullanılabilir hale gelir.
  • Özgün sayılarınız ve özellikleriniz, yeniden işleme almak istemeyebilirsiniz çok büyük bir veri kümesine dayalıdır. Sayıları birleştirerek yeni verilerle güncelleştirebilirsiniz.
  • Denemede kullanmakta olan tüm veri kümelerine aynı sayı tabanlı özellik kümesine uygulandığını emin olmak istiyorsanız.

Derleme Sayma Dönüşümlerini yapılandırma

Doğrudan bir veri kümesinden sayı tabanlı özellik dönüştürmesi oluşturabilir ve denemeyi her çalıştırarak yeniden çalıştırabilirsiniz. Veya bir sayı kümesi oluşturabilir ve ardından bunu yeni verilerle birleştirebilir ve güncelleştirilmiş bir sayı tablosu oluşturabilirsiniz.

  • Veri kümesinden sayı tabanlı özellikler oluşturma

    Daha önce sayı oluşturmadıysanız buradan başlayabilirsiniz. Sayı tabloları oluşturmak ve otomatik olarak bir özellik kümesi oluşturmak için Derleme Sayma Dönüştürme modülünü kullanırsiniz.

    Bu işlem, Dönüşümü Uygula modülünü kullanarak bir veri kümesine uygulayabilecek bir özellik dönüşümü oluşturur.

  • Birden çok veri kümesinden gelen birleştirme sayıları ve özellikleri

    Önceki bir veri kümesinden daha önce bir sayı tablosu oluşturduysanız yalnızca yeni veriler üzerinde sayımlar oluşturabilir veya önceki bir veri kümesi sürümünde oluşturulmuş mevcut sayı tablolarını içeri Machine Learning. Ardından iki sayı tablosu kümesi birleştirin

    Bu işlem, Dönüşümü Uygula modülünü kullanarak bir veri kümesine uygulayabilecek yeni bir özellik dönüşümü oluşturur.

Veri kümesinden sayı tabanlı özellikler oluşturma

  1. Machine Learning Studio'da (klasik) Denemenize Derleme Sayma Dönüştürme modülünü ekleyin. Modülü Veri Dönüştürme'nin altında, Sayılarla birlikte Learning bulabilirsiniz.

  2. Bağlan tabanlı özelliklerimiz için temel olarak kullanmak istediğiniz veri kümesine erişim sağlar.

  3. Etiket sütundaki değer sayısını belirtmek için Sınıf sayısı seçeneğini kullanın.

    • Herhangi bir ikili sınıflandırma sorunu için yazın 2.
    • İkiden fazla olası çıkışla ilgili bir sınıflandırma sorunu için, saymak istediğiniz tam sınıf sayısını önceden belirtmeniz gerekir. Gerçek sınıf sayısından küçük bir sayı girersiniz, modül bir hata döndürür.
    • Veri kümeniz birden çok sınıf değeri içeriyorsa ve sınıf etiketi değerleri sıralı değilse, sütunun kategorik değerler içerdiğini belirtmek için Meta Verileri Düzenle'yi kullansanız gerekir.
  4. seçeneği için Karma işlevinin bitleri, değerleri karmalarken kaç bitin kullanacağız olduğunu belirtin.

    Saymak için çok sayıda değer olduğunu ve daha yüksek bir bit sayısı gerektirebileceklerini bilmiyorsanız varsayılan değerleri kabul etmek genellikle güvenlidir.

  5. Karma işlevinin çekirdeğinde, isteğe bağlı olarak karma işlevinin çekirdeğini belirlemek için bir değer belirtsiniz. Bir çekirdeği el ile ayarlama genellikle karma sonuçlarının aynı denemenin çalıştırmaları arasında belirleyici olduğundan emin olmak istediğiniz zaman yapılır.

  6. Depolama moduna bağlı olarak saymak istediğiniz veri türünü belirtmek için Modül türü seçeneğini kullanın:

    • Veri kümesi: Machine Learning Studio'da (klasik) veri kümesi olarak kaydedilen verileri sayıyorsanız bu seçeneği belirleyin.

    • Blob: Derleme sayılarında kullanılan kaynak verileriniz Azure depolama alanında blok blobu olarak Windows seçin.

    • MapReduce: Verileri işlemesi için Map/Reduce işlevlerini çağırmayı tercih ediyorsanız bu seçeneği belirleyin.

      Bu seçeneği kullanmak için yeni verilerin Azure depolama alanında blob Windows ve dağıtılan bir HDInsight kümesine erişiminizin olması gerekir. Denemeyi çalıştırarak saymayı gerçekleştirmek için kümede bir Eşleme/Azaltma işi başlatabilirsiniz.

      Çok büyük veri kümeleri için mümkün olduğunca bu seçeneği kullanmanız önerilir. HDInsight hizmetini kullanmak için ek maliyetler ödemeye gerek olsa da, HDInsight'ta büyük veri kümeleri üzerinde hesaplama daha hızlı olabilir.

      Daha fazla bilgi için bkz. https://azure.microsoft.com/services/hdinsight/.

  7. Veri depolama modunu belirtdikten sonra, gerekli veriler için ek bağlantı bilgilerini belirtin:

    • Hadoop veya blob depolamadan veri kullanıyorsanız küme konumunu ve kimlik bilgilerini girin.
    • Verilere erişmek için denemede daha önce verileri içeri aktarma modülünü kullandıysanız hesap adını ve kimlik bilgilerinizi yeniden girmeniz gerekir. Derleme Sayma Dönüştürme modülü, verileri okumak ve gerekli tabloları oluşturmak için veri depolamaya ayrı olarak erişiyor.
  8. Etiket sütunu veya dizini için etiket sütunu olarak bir sütun seçin.

    Etiket sütunu gereklidir. Sütunun zaten etiket olarak işaretlenmiş olması gerekir, yoksa bir hata ortaya çıkar.

  9. Saymak istediğiniz sütunları seçin seçeneğini kullanın ve sayıların oluşturulılacağı sütunları seçin.

    Genel olarak, en iyi adaylar yüksek boyutlu sütunlar ve bu sütunlarla ilişkili diğer sütunlardır.

  10. Sayı tablosu türünü depolamak için kullanılan biçimi belirtmek için Tablo türünü say seçeneğini kullanın.

    • Sözlük: Bir sözlük sayısı tablosu oluşturur. Seçili sütunlarda yer alan tüm sütun değerleri dize olarak kabul edilir ve boyutu en fazla 31 bit olan bir bit dizisi kullanılarak karma olarak kullanılır. Bu nedenle, tüm sütun değerleri negatif olmayan bir 32 bit tamsayı ile temsil eder.

      Genel olarak, bu seçeneği daha küçük veri kümeleri (1 GB'den az) için ve daha büyük veri kümeleri için CMSketch seçeneğini kullansanız gerekir.

      Bu seçeneği kullandıktan sonra karma işlevi tarafından kullanılan bit sayısını yapılandırarak karma işlevini başlatmaya uygun bir çekirdek ayarlayın.

    • CMSketch: Minimum skeç tablosu sayısı oluşturur. Bu seçenekle, bellek verimliliğini artırmak ve karma çakışma ihtimalini azaltmak için daha küçük bir aralıkta birden çok bağımsız karma işlevi kullanılır. Karma bit boyutu ve karma çekirdeği parametrelerinin bu seçenek üzerinde hiçbir etkisi yoktur.

  11. Denemeyi çalıştırın.

    Modül, Dönüştürme Uygulama modülünde giriş olarak kullanabileceğiniz bir özelleştirme dönüşümü oluşturur. Dönüştürme Uygula modülünün çıktısı , modeli eğitmek için kullanılan dönüştürülmüş bir veri kümesidir.

    İsteğe bağlı olarak, sayı tabanlı özellik kümelerini başka bir sayı tabanlı özellik kümesiyle birleştirmek için dönüştürmeyi kaydedebilirsiniz. Daha fazla bilgi için bkz. Birleştirme Sayısı Dönüşümü.

Birden çok veri kümesinden gelen birleştirme sayıları ve özellikleri

  1. Machine Learning Studio'da (klasik) Derleme Sayma Dönüştürme modülünü denemenize ekleyin ve eklemek istediğiniz yeni verileri içeren veri kümesine bağlanabilirsiniz.

  2. Yeni verilerin kaynağını belirtmek için Modül türü seçeneğini kullanın. Farklı kaynaklardan verileri birleştirebilirsiniz.

    • Veri kümesi: Yeni veriler Machine Learning Studio'da (klasik) veri kümesi olarak sağlanıyorsa bu seçeneği belirleyin.

    • Blob: Yeni veriler Azure depolama alanında blok blobu olarak sağlanıyorsa Windows seçin.

    • MapReduce: Verileri işlemesi için Map/Reduce işlevlerini çağırmayı tercih ediyorsanız bu seçeneği belirleyin.

      Bu seçeneği kullanmak için yeni verilerin Azure depolama alanında blob Windows ve dağıtılan bir HDInsight kümesine erişiminizin olması gerekir. Denemeyi çalıştırarak saymayı gerçekleştirmek için kümede bir Eşleme/Azaltma işi başlatabilirsiniz.

      Daha fazla bilgi için bkz. https://azure.microsoft.com/services/hdinsight/.

  3. Veri depolama modunu belirtdikten sonra, yeni veriler için ek bağlantı bilgilerini belirtin:

    • Hadoop veya blob depolamadan veri kullanıyorsanız küme konumunu ve kimlik bilgilerini girin.

    • Verilere erişmek için denemede daha önce verileri içeri aktarma modülünü kullandıysanız hesap adını ve kimlik bilgilerinizi yeniden girmeniz gerekir. Bunun nedeni, Derleme Sayma Dönüştürme modülünün verileri okumak ve gerekli tabloları oluşturmak için veri depolamaya ayrı olarak erişmesidir.

  4. Sayıları birleştirerek aşağıdaki seçeneklerin her iki sayı tablosu için de tam olarak aynı olması gerekir:

    • Sınıf sayısı
    • Karma işlevinin bitleri
    • Karma işlevinin çekirdeği
    • Saymak istediğiniz sütunları seçin

    Etiket sütunu aynı sayıda sınıf içerdiği sürece farklı olabilir.

  5. Güncelleştirilmiş sayı tablosu için biçimi ve hedefi belirtmek üzere Tablo türünü say seçeneğini kullanın.

    İpucu

    Birleştirmeyi istediğiniz iki sayı tablosu biçimi aynı olmalıdır. Başka bir deyişle, Sözlük biçimini kullanarak daha önce bir sayı tablosu kaydetmeyi, CMSketch biçimi kullanılarak kaydedilen sayılarla birleştiramazsınız.

  6. Denemeyi çalıştırın.

    Modül, Dönüştürme Uygulama modülünde giriş olarak kullanabileceğiniz bir özelleştirme dönüşümü oluşturur. Dönüştürme Uygula modülünün çıktısı , modeli eğitmek için kullanılan dönüştürülmüş bir veri kümesidir.

  7. Bu sayı dizisini mevcut bir sayı tabanlı özellik kümesiyle birleştirmek için bkz. Birleştirme Sayısı Dönüşümü.

Örnekler

Sayım algoritması ve diğer yöntemlerle karşılaştırıldığında sayı tabanlı modellemenin etkinliği hakkında daha fazla bilgi için bu makalelere bakın.

Aşağıdaki denemelerde, Azure Yapay Zeka Galerisi tahmine dayalı modeller oluşturmak için sayı tabanlı öğrenmenin nasıl kullanılacağı gösterildi:

Modül parametreleri

Aşağıdaki parametreler tüm seçeneklerle birlikte kullanılır:

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Sınıf sayısı Tamsayı >=2 Gerekli 2 Etiket için sınıfların sayısı.
Karma işlevinin bitleri Tamsayı [12;31] Gerekli 20 Karma işlevi aralığının bit sayısı.
Karma işlevinin çekirdeği Tamsayı herhangi biri Gerekli 1 Karma işlevi için çekirdek.
Modül türü Gerekli Veri kümesi Sayı tablosu oluşturmada kullanmak için modülün türü.
Tablo türünü say CountTableType listeden seçme Gerekli Sözlük Sayı tablosu biçimini belirtin.

Blob seçeneği seçilirken aşağıdaki seçenekler geçerlidir .

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Blob adı Dize herhangi biri Gerekli Giriş blobu adı. Kapsayıcı adı dahil değildir.
Hesap adı Dize herhangi biri Gerekli Depolama hesabının adı.
Hesap anahtarı Securestring herhangi biri Gerekli Depolama hesabının anahtarı.
Kapsayıcı adı Dize herhangi biri Gerekli Giriş blobu içeren Azure blob kapsayıcısı.
Sütunları say Dize herhangi biri Gerekli Sayım gerçekleştirmek için sütun gruplarının tek tabanlı dizinleri.
Etiket sütunu Tamsayı >=1 Gerekli 1 Etiket sütununu tek tabanlı dizin.
Blob biçimi herhangi biri Gerekli CSV Blob metin dosyası biçimi.

Aşağıdaki parametreler, sayı oluşturmak MapReduce için geçerlidir:

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Varsayılan depolama hesabı adı Dize herhangi biri Gerekli yok Giriş blobu içeren depolama hesabının adı.
Varsayılan depolama hesabı anahtarı Securestring herhangi biri Gerekli yok Giriş blobu içeren depolama hesabının anahtarı.
Varsayılan kapsayıcı adı Dize herhangi biri Gerekli yok Sayı tablosu yazmak için blob kapsayıcının adı.
Küme URI'si Dize herhangi biri Gerekli yok HDInsight Hadoop kümesi URI'si.
Kullanıcı adı Dize herhangi biri Gerekli yok HDInsight Hadoop kümesinde oturum açma kullanıcı adı.

Aşağıdaki parametreler sayı tablosu biçimini tanımlar:

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Tablo türünü say CountTableType Liste Gerekli Sözlük Sayı tablosu türü.
Sütun dizinini veya adını etiketleme ColumnSelection Sayı tablosu Veri Kümesi olarak kaydedildi ise gereklidir yok Etiket sütununu seçin.
Saymak istediğiniz sütunları seçin ColumnSelection Sayı tablosu Veri Kümesi olarak kaydedildi ise gereklidir Sayım için sütunları seçin. Bu sütunlar kategorik özellikler olarak kabul edilir.
CM taslak tablosu derinliği Tamsayı >=1 Sayı tablosu CMSketch biçimini kullanıyorsa gereklidir 4 Karma işlevlerin sayısına eşit olan CM taslak tablosu derinliği.
CM taslak tablosu genişliği Tamsayı [1;31] Sayı tablosu CMSketch biçimini kullanıyorsa gereklidir 20 KARMA işlevi aralığının bit sayısı olan CM taslak tablosu genişliği.
Sütun dizinini veya namecolumn'u etiketleme ColumnSelection Sayı tablosu Veri Kümesi olarak kaydedildi ise gereklidir Etiket sütununu seçer.
Saymak istediğiniz sütunları seçin ColumnSelection Sayı tablosu Veri Kümesi olarak kaydedildi ise gereklidir Sayım için sütunları seçer. Bu sütunlar kategorik özellikler olarak kabul edilir.
Tablo türünü say Sayı tablosu Veri Kümesi olarak kaydedildi ise gereklidir Sözlük Sayı tablosu türünü belirtir.
CM taslak tablosu derinliği Tamsayı >=1 SAYı tablosu CMSketch olarak kaydedildi ise gereklidir 4 Karma işlevlerin sayısına eşit olan CM çizim tablosu derinliği.
CM taslak tablosu genişliği Tamsayı [1;31] SAYı tablosu CMSketch olarak kaydedildi ise gereklidir 20 Karma işlevi aralığının bit sayısı olan CM taslak tablosu genişliği.

Çıkışlar

Ad Tür Description
Dönüştürmeyi sayma ITransform arabirimi Sayma dönüşümü.

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0004 Parametre belirli bir değerden küçük veya ona eşitse özel durum oluşur.
Hata 0005 Parametre belirli bir değerden küçükse özel durum oluşur.
Hata 0007 Parametre belirli bir değerden büyükse özel durum oluşur.
Hata 0009 Azure depolama hesabı adı veya kapsayıcı adı yanlış belirtilirse özel durum oluşur.
Hata 0065 Azure blob adı yanlış belirtilirse özel durum oluşur.
Hata 0011 Geçirilen sütun kümesi bağımsız değişkeni herhangi bir veri kümesi sütununa uygulanamasa özel durum oluşur.
Hata 0049 Bir dosyanın ayrıştırılamaysa özel durum oluşur.
Hata 1000 İç kitaplık özel durumu.
Hata 0059 Bir sütun seçicide belirtilen sütun dizini ayrıştırılemezsa özel durum oluşur.
Hata 0060 Özel durum, bir sütun seçicide aralık dışında bir sütun aralığı belirtiliyorsa oluşur.
Hata 0089 Belirtilen sınıf sayısı, sayma için kullanılan bir veri kümesinde gerçek sınıf sayısından küçük olduğunda özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Learning ile birlikte