Azure Açık Veri Kümelerinden Azure Machine Learning veri kümeleri oluşturma
Bu makalede, Azure Machine Learning veri kümeleri ve Azure Açık Veri Kümeleri ile zenginleştirme verilerini yerel veya uzak makine öğrenmesi denemelerinize nasıl getireceğinizi öğreneceksiniz.
Azure Machine Learning veri kümesiyle veri kaynağı konumuna bir başvuru ve meta verilerinin bir kopyasını oluşturursunuz. Veri kümeleri gevşek bir şekilde değerlendirildiğinden ve veriler mevcut konumunda kaldığından,
- Özgün veri kaynaklarınızda yanlışlıkla yapılan değişiklikleri riske atmayın
- Ek depolama maliyeti yoktur
- ML iş akışı performans hızlarını geliştirme
Veri kümelerinin genel Azure Machine Learning veri erişimi iş akışına nereye sığdığı hakkında daha fazla bilgi için Verilere güvenli erişim makalesini ziyaret edin.
Azure Açık Veri Kümeleri, tahmine dayalı çözümlerinizi zenginleştirmek ve bu çözümlerin doğruluğunu geliştirmek için senaryoya özgü özellikler ekleyen genel veri kümeleridir. Makine öğrenmesi modellerini eğitmenize yardımcı olabilecek genel etki alanı verileri için Açık Veri Kümeleri katalog kaynağını ziyaret edin. Örneğin:
Açık Veri Kümeleri Microsoft Azure'da bulutta barındırılır. Hem Azure Machine Learning Python SDK'sı hem de Azure Machine Learning stüdyosu bunları içerir.
Önkoşullar
Şunlara sahip olmanız gerekir:
Azure aboneliği. Aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun. Azure Machine Learning'in ücretsiz veya ücretli sürümünü deneyin.
Paketi içeren Python için Azure Machine Learning SDK'sı
azureml-datasets
yüklüdür.- Tümleşik not defterlerini ve zaten yüklü sdk'ları içeren tam olarak yapılandırılmış ve yönetilen bir geliştirme ortamı olan bir Azure Machine Learning işlem örneği oluşturun.
OR
Not
Bazı veri kümesi sınıflarının azureml-dataprep paketine bağımlılıkları vardır. Bu paket yalnızca 64 bit Python ile uyumludur. Linux kullanıcıları için bu sınıflar yalnızca şu Linux dağıtımlarında desteklenir:
- Debian (8, 9)
- Fedora (27, 28)
- Red Hat Enterprise Linux (7, 8)
- Ubuntu (14.04, 16.04, 18.04)
SDK ile veri kümeleri oluşturma
Azure Open Datasets sınıfları aracılığıyla Azure Machine Learning veri kümeleri oluşturmak için Python SDK'sında paketini ile pip install azureml-opendatasets
yüklediğinizden emin olun. SDK'da, her ayrık veri kümesinin sınıfı bu sınıfı temsil eder ve belirli sınıflar Azure Machine Learning veri türü, Azure Machine Learning FileDataset
TabularDataset
veri türü veya her ikisi olarak kullanılabilir. Sınıfların tam listesi opendatasets
için başvuru belgelerini ziyaret edin.
Belirli opendatasets
sınıfları veya FileDataset
kaynak olarak TabularDataset
alabilirsiniz. Ardından dosyaları doğrudan işleyebilir ve/veya indirebilirsiniz. Diğer sınıflar veri kümesini yalnızca Python SDK'sında get_tabular_dataset()
sınıfından Dataset
veya get_file_dataset()
işlevlerini kullanarak alabilir.
Bu kod, MNIST opendatasets
sınıfının veya FileDataset
döndürebileceğini TabularDataset
gösterir:
from azureml.core import Dataset
from azureml.opendatasets import MNIST
# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()
Bu örnekte Diabetes opendatasets
sınıfı yalnızca olarak TabularDataset
kullanılabilir. Bunun için kullanılması get_tabular_dataset()
gerekir.
from azureml.opendatasets import Diabetes
from azureml.core import Dataset
# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()
Veri kümelerini kaydetme
Bir Azure Machine Learning veri kümesini çalışma alanınıza kaydederek veri kümesini başkalarıyla paylaşabilir ve çalışma alanınızdaki denemelerde yeniden kullanabilirsiniz. Açık Veri Kümelerinden oluşturulan bir Azure Machine Learning veri kümesini kaydettiğinizde, hiçbir veri hemen indirilemez, ancak veriler daha sonra (örneğin eğitim sırasında) merkezi bir depolama konumundan istendiğinde erişilebilir hale gelir.
Veri kümelerinizi bir çalışma alanına kaydetmek için yöntemini kullanın register()
.
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
Stüdyo ile veri kümeleri oluşturma
Ayrıca Azure Machine Learning stüdyosu ile Azure Açık Veri Kümelerinden Azure Machine Learning veri kümeleri oluşturabilirsiniz. Bu birleştirilmiş web arabirimi, tüm beceri düzeylerindeki veri bilimi uygulayıcıları için veri bilimi senaryoları gerçekleştirmek için makine öğrenmesi araçlarını içerir.
Not
Azure Machine Learning stüdyosu aracılığıyla oluşturulan veri kümeleri otomatik olarak çalışma alanına kaydedilir.
Çalışma alanınızda sol gezinti bölmesindeki Veriler'i seçin. Veri varlıkları sekmesinde, bu ekran görüntüsünde gösterildiği gibi Oluştur'u seçin:
Sonraki ekranda, yeni veri varlığı için bir ad ve isteğe bağlı bir açıklama ekleyin. Ardından, bu ekran görüntüsünde gösterildiği gibi Tür açılan listesinde Tablolu'yu seçin:
Sonraki ekranda Azure Açık Veri Kümelerinden'i ve ardından bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
Sonraki ekranda kullanılabilir bir Azure Açık Veri Kümesi seçin. Bu ekran görüntüsünde San Francisco Güvenlik Veri Kümesi'ni seçtik:
Gerekirse ekranı aşağı kaydırın ve bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
İsteğe bağlı olarak, seçilen veri kümesi için uygun olan kullanılabilir filtrelerle verileri filtreleyin. San Francisco Güvenlik Verileri veri kümesi için, 1 Temmuz 2024 ile 17 Temmuz 2024 başlangıç tarihi arasında filtrelenmiş tarih aralığını ayarladık. Bu ekran görüntüsünde gösterildiği gibi İleri'yi seçin:
Sonraki ekranda yeni veri varlığının ayarlarını gözden geçirin ve gerekli değişiklikleri yapın. İyi göründüğünde, bu ekran görüntüsünde gösterildiği gibi Oluştur'u seçin:
San Francisco Güvenlik Verileri veri kümesinin alan açıklamaları ve tarih aralıkları hakkında daha fazla bilgi için San Francisco Güvenlik Verileri kaynağını ziyaret edin. Diğer veri kümeleri hakkında daha fazla bilgi için Azure Açık Veri Kümeleri Kataloğu kaynağını ziyaret edin.
Veri kümesi artık çalışma alanınızda Veri Kümeleri altında kullanılabilir. Bunu, oluşturduğunuz diğer veri kümeleriyle aynı şekilde kullanabilirsiniz.
Denemeleriniz için veri kümelerine erişme
ML modellerini eğitmak için makine öğrenmesi denemelerinizde veri kümelerinizi kullanın. Daha fazla bilgi için veri kümeleriyle eğitim hakkında daha fazla bilgi edinin bölümünü ziyaret edin.
Örnek not defterleri
Açık Veri Kümeleri işlevinin örnekleri ve tanıtımları için bu örnek not defterlerini gözden geçirin.
Sonraki adımlar
- İlk ML modelinizi eğitin.
- Veri kümeleriyle eğitin.
- Azure Machine Learning veri kümesi oluşturma.