Aracılığıyla paylaş


Azure Açık Veri Kümelerinden Azure Machine Learning veri kümeleri oluşturma

Bu makalede, Azure Machine Learning veri kümeleri ve Azure Açık Veri Kümeleri ile zenginleştirme verilerini yerel veya uzak makine öğrenmesi denemelerinize nasıl getireceğinizi öğreneceksiniz.

Azure Machine Learning veri kümesiyle veri kaynağı konumuna bir başvuru ve meta verilerinin bir kopyasını oluşturursunuz. Veri kümeleri gevşek bir şekilde değerlendirildiğinden ve veriler mevcut konumunda kaldığından,

  • Özgün veri kaynaklarınızda yanlışlıkla yapılan değişiklikleri riske atmayın
  • Ek depolama maliyeti yoktur
  • ML iş akışı performans hızlarını geliştirme

Veri kümelerinin genel Azure Machine Learning veri erişimi iş akışına nereye sığdığı hakkında daha fazla bilgi için Verilere güvenli erişim makalesini ziyaret edin.

Azure Açık Veri Kümeleri, tahmine dayalı çözümlerinizi zenginleştirmek ve bu çözümlerin doğruluğunu geliştirmek için senaryoya özgü özellikler ekleyen genel veri kümeleridir. Makine öğrenmesi modellerini eğitmenize yardımcı olabilecek genel etki alanı verileri için Açık Veri Kümeleri katalog kaynağını ziyaret edin. Örneğin:

Açık Veri Kümeleri Microsoft Azure'da bulutta barındırılır. Hem Azure Machine Learning Python SDK'sı hem de Azure Machine Learning stüdyosu bunları içerir.

Önkoşullar

Şunlara sahip olmanız gerekir:

  • Azure aboneliği. Aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun. Azure Machine Learning'in ücretsiz veya ücretli sürümünü deneyin.

  • Azure Machine Learning çalışma alanı.

  • Paketi içeren Python için Azure Machine Learning SDK'sı azureml-datasets yüklüdür.

    • Tümleşik not defterlerini ve zaten yüklü sdk'ları içeren tam olarak yapılandırılmış ve yönetilen bir geliştirme ortamı olan bir Azure Machine Learning işlem örneği oluşturun.

    OR

    • Kendi Python ortamınızda çalışın ve bu yönergelerle SDK'yı kendiniz yükleyin.

Not

Bazı veri kümesi sınıflarının azureml-dataprep paketine bağımlılıkları vardır. Bu paket yalnızca 64 bit Python ile uyumludur. Linux kullanıcıları için bu sınıflar yalnızca şu Linux dağıtımlarında desteklenir:

  • Debian (8, 9)
  • Fedora (27, 28)
  • Red Hat Enterprise Linux (7, 8)
  • Ubuntu (14.04, 16.04, 18.04)

SDK ile veri kümeleri oluşturma

Azure Open Datasets sınıfları aracılığıyla Azure Machine Learning veri kümeleri oluşturmak için Python SDK'sında paketini ile pip install azureml-opendatasetsyüklediğinizden emin olun. SDK'da, her ayrık veri kümesinin sınıfı bu sınıfı temsil eder ve belirli sınıflar Azure Machine Learning veri türü, Azure Machine Learning FileDataset TabularDataset veri türü veya her ikisi olarak kullanılabilir. Sınıfların tam listesi opendatasets için başvuru belgelerini ziyaret edin.

Belirli opendatasets sınıfları veya FileDataset kaynak olarak TabularDataset alabilirsiniz. Ardından dosyaları doğrudan işleyebilir ve/veya indirebilirsiniz. Diğer sınıflar veri kümesini yalnızca Python SDK'sında get_tabular_dataset() sınıfından Datasetveya get_file_dataset() işlevlerini kullanarak alabilir.

Bu kod, MNIST opendatasets sınıfının veya FileDatasetdöndürebileceğini TabularDataset gösterir:

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Bu örnekte Diabetes opendatasets sınıfı yalnızca olarak TabularDatasetkullanılabilir. Bunun için kullanılması get_tabular_dataset()gerekir.


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Veri kümelerini kaydetme

Bir Azure Machine Learning veri kümesini çalışma alanınıza kaydederek veri kümesini başkalarıyla paylaşabilir ve çalışma alanınızdaki denemelerde yeniden kullanabilirsiniz. Açık Veri Kümelerinden oluşturulan bir Azure Machine Learning veri kümesini kaydettiğinizde, hiçbir veri hemen indirilemez, ancak veriler daha sonra (örneğin eğitim sırasında) merkezi bir depolama konumundan istendiğinde erişilebilir hale gelir.

Veri kümelerinizi bir çalışma alanına kaydetmek için yöntemini kullanın register() .

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Stüdyo ile veri kümeleri oluşturma

Ayrıca Azure Machine Learning stüdyosu ile Azure Açık Veri Kümelerinden Azure Machine Learning veri kümeleri oluşturabilirsiniz. Bu birleştirilmiş web arabirimi, tüm beceri düzeylerindeki veri bilimi uygulayıcıları için veri bilimi senaryoları gerçekleştirmek için makine öğrenmesi araçlarını içerir.

Not

Azure Machine Learning stüdyosu aracılığıyla oluşturulan veri kümeleri otomatik olarak çalışma alanına kaydedilir.

  1. Çalışma alanınızda sol gezinti bölmesindeki Veriler'i seçin. Veri varlıkları sekmesinde, bu ekran görüntüsünde gösterildiği gibi Oluştur'u seçin:

    Veri Varlıkları sekmesindeki Oluştur denetimini gösteren ekran görüntüsü.

  2. Sonraki ekranda, yeni veri varlığı için bir ad ve isteğe bağlı bir açıklama ekleyin. Ardından, bu ekran görüntüsünde gösterildiği gibi Tür açılan listesinde Tablolu'yu seçin:

    Tür açılan listesinde Tablosal seçeneğin seçimini gösteren ekran görüntüsü.

  3. Sonraki ekranda Azure Açık Veri Kümelerinden'i ve ardından bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:

    Azure Açık Veri Kümelerinden seçeneğini gösteren ekran görüntüsü.

  4. Sonraki ekranda kullanılabilir bir Azure Açık Veri Kümesi seçin. Bu ekran görüntüsünde San Francisco Güvenlik Veri Kümesi'ni seçtik:

    ABD İş Gücü İstatistikleri veri kümesinin seçimini gösteren ekran görüntüsü.

  5. Gerekirse ekranı aşağı kaydırın ve bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:

    İleri düğmesinin seçimini gösteren ekran görüntüsü.

  6. İsteğe bağlı olarak, seçilen veri kümesi için uygun olan kullanılabilir filtrelerle verileri filtreleyin. San Francisco Güvenlik Verileri veri kümesi için, 1 Temmuz 2024 ile 17 Temmuz 2024 başlangıç tarihi arasında filtrelenmiş tarih aralığını ayarladık. Bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:

    Filtre değerlerinin seçimini ve İleri düğmesinin seçimini gösteren ekran görüntüsü.

  7. Sonraki ekranda yeni veri varlığının ayarlarını gözden geçirin ve gerekli değişiklikleri yapın. İyi göründüğünde, bu ekran görüntüsünde gösterildiği gibi Oluştur'u seçin:

    Seçilen ayarların gözden geçirilmesini ve İleri düğmesinin seçimini gösteren ekran görüntüsü.

  8. San Francisco Güvenlik Verileri veri kümesinin alan açıklamaları ve tarih aralıkları hakkında daha fazla bilgi için San Francisco Güvenlik Verileri kaynağını ziyaret edin. Diğer veri kümeleri hakkında daha fazla bilgi için Azure Açık Veri Kümeleri Kataloğu kaynağını ziyaret edin.

Veri kümesi artık çalışma alanınızda Veri Kümeleri altında kullanılabilir. Bunu, oluşturduğunuz diğer veri kümeleriyle aynı şekilde kullanabilirsiniz.

Denemeleriniz için veri kümelerine erişme

ML modellerini eğitmak için makine öğrenmesi denemelerinizde veri kümelerinizi kullanın. Daha fazla bilgi için veri kümeleriyle eğitim hakkında daha fazla bilgi edinin bölümünü ziyaret edin.

Örnek not defterleri

Açık Veri Kümeleri işlevinin örnekleri ve tanıtımları için bu örnek not defterlerini gözden geçirin.

Sonraki adımlar