Erstellen von Azure Machine Learning-Datasets über Azure Open Datasets

Achtung

Dieser Artikel bezieht sich auf CentOS, eine Linux-Distribution, die sich dem End-of-Life-Status (EOL) nähert. Sie sollten Ihre Nutzung entsprechend planen. Weitere Informationen finden Sie im CentOS End-of-Life-Leitfaden.

In diesem Artikel erfahren Sie, wie Sie mithilfe von Azure Machine Learning-Datasets und Azure Open Datasets kuratierte Anreicherungsdaten in Ihre lokalen remote ausgeführten Machine Learning-Experimente einbringen.

Durch Erstellen eines Azure Machine Learning-Datasets erstellen Sie einen Verweis auf den Speicherort der Datenquelle sowie eine Kopie der zugehörigen Metadaten. Da Datasets nur langsam ausgewertet werden und die Daten am vorhandenen Speicherort verbleiben, profitieren Sie von folgenden Vorteilen:

  • Es entstehen keine zusätzlichen Speicherkosten.
  • Sie laufen nicht Gefahr, unabsichtlich Ihre ursprünglichen Datenquellen zu ändern.
  • Der ML-Workflow wird verbessert und beschleunigt.

Informationen dazu, welche Rolle Datasets im Workflow für den Datenzugriff in Azure Machine Learning spielen, finden Sie im Artikel Datenzugriff in Azure Machine Learning.

Azure Open Datasets sind kuratierte öffentliche Datasets, mit denen Sie szenariospezifische Features hinzufügen können, um Ihre Vorhersagelösungen anzureichern und die Genauigkeit zu verbessern. Im Open Datasets-Katalog finden Sie Daten der öffentlichen Domäne, mit denen Sie Ihre Machine Learning-Modelle trainieren können, z. B. zu folgenden Themen:

Open Datasets befinden sich in Microsoft Azure in der Cloud und sind sowohl im Azure Machine Learning Python SDK als auch in Azure Machine Learning Studio enthalten.

Voraussetzungen

Für diesen Artikel ist Folgendes erforderlich:

Hinweis

Einige Datasetklassen sind vom Paket azureml-dataprep abhängig, das nur mit 64-Bit Python kompatibel ist. Für Linux-Benutzer werden diese Klassen nur unter den folgenden Distributionen unterstützt: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) und CentOS (7).

Erstellen von Datasets mit dem SDK

Wenn Sie Azure Machine Learning-Datasets über Open Datasets-Klassen im Python SDK erstellen möchten, vergewissern Sie sich, dass Sie das Paket mit pip install azureml-opendatasets installiert haben. Jedes einzelne Dataset wird durch eine eigene Klasse im SDK repräsentiert, und bestimmte Klassen sind als TabularDataset oder FileDataset von Azure Machine Learning oder als beides verfügbar. Eine vollständige Liste der opendatasets-Klassen finden Sie in der Referenzdokumentation.

Sie können bestimmte opendatasets-Klassen als TabularDataset oder als FileDataset abrufen, sodass Sie die Dateien direkt bearbeiten und/oder herunterladen können. Andere Klassen können ein Dataset ausschließlich mithilfe der Funktion get_tabular_dataset() oder get_file_dataset() aus der Dataset-Klasse im Python SDK abrufen.

Der folgende Code zeigt, dass die opendatasets-Klasse „MNIST“ ein TabularDataset oder ein FileDataset zurückgeben kann.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

In diesem Beispiel ist die opendatasets-Klasse „Diabetes“ nur als TabularDataset verfügbar, daher die Verwendung von get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Registrieren von Datasets

Registrieren Sie ein Azure Machine Learning-Dataset bei Ihrem Arbeitsbereich, damit Sie es für andere Benutzer freigeben und in Experimenten in Ihrem Arbeitsbereich wiederverwenden können. Wenn Sie ein Azure Machine Learning-Dataset registrieren, das aus Open Datasets erstellt wurde, werden die Daten nicht sofort heruntergeladen. Auf die Daten wird erst später, wenn sie angefordert werden (z. B. während des Trainings), in einem zentralen Speicherort zugegriffen.

Verwenden Sie die register()-Methode, um Ihre Datasets bei einem Arbeitsbereich zu registrieren.

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Erstellen von Datasets mit Studio

Sie können Azure Machine Learning-Datasets auch über Azure Machine Learning Studio aus Azure Open Datasets erstellen. Studio ist eine konsolidierte Webumgebung mit Machine Learning-Tools, über die Data Scientists mit den unterschiedlichsten Qualifikationen Data Science-Szenarien ausführen können.

Hinweis

Datasets, die über Azure Machine Learning Studio erstellt werden, werden automatisch beim Arbeitsbereich registriert.

  1. Wählen Sie in Ihrem Arbeitsbereich unter Assets die Registerkarte Datasets aus. Wählen Sie im Dropdownmenü Dataset erstellen die Option Aus Open Datasets aus.

    Öffnen eines Datasets über die Benutzeroberfläche

  2. Wählen Sie ein Dataset aus, indem Sie die entsprechende Kachel auswählen. (Über die Suchleiste kann gefiltert werden.) Wählen Sie Weiter aus.

    Dataset auswählen

  3. Wählen Sie einen Namen, unter dem das Dataset registriert werden soll, und filtern Sie die Daten optional mithilfe der verfügbaren Filter. Filtern Sie in diesem Fall das Dataset der gesetzlichen Feiertage nach Zeitraum (ein Jahr) und Ländercode (nur USA). Weitere Details zu den Daten, wie z. B. Feldbeschreibungen und Datumsbereiche, finden Sie im Azure Open Datasets-Katalog. Klicken Sie auf Erstellen.

    Dataset-Parameter festlegen und Dataset erstellen

    Das Dataset ist nun in Ihrem Arbeitsbereich unter Datasets verfügbar. Sie können es auf die gleiche Weise verwenden wie andere Datasets, die Sie erstellt haben.

Zugreifen auf Datasets für Ihre Experimente

Verwenden Sie Ihre Datasets in Ihren Machine Learning-Experimenten zum Trainieren von ML-Modellen. Erfahren Sie mehr über das Trainieren mit Datasets.

Beispielnotebooks

Beispiele und Demonstrationen der Open Datasets-Funktionalität finden Sie in diesen Beispiel-Notebooks.

Nächste Schritte