Daten in Azure Machine Learning v1

GILT FÜR:Azure CLI ML-Erweiterung v1

GILT FÜR:Python SDK azureml v1

Azure Machine Learning macht es einfach, eine Verbindung mit Ihren Daten in der Cloud herzustellen. Es wird eine Abstraktionsschicht über dem zugrunde liegenden Speicherdienst bereitgestellt, sodass Sie sicher auf Ihre Daten zugreifen und diese bearbeiten können, ohne für Ihren Speichertyp spezifischen Code schreiben zu müssen. Azure Machine Learning bietet auch folgende Datenfunktionen:

  • Interoperabilität mit Pandas und Spark DataFrames
  • Versionsverwaltung und Nachverfolgung der Datenherkunft
  • Datenbeschriftung
  • Überwachung von Datenabweichungen

Datenworkflow

Wenn Sie bereit sind, die Daten in ihrer cloudbasierten Speicherlösung zu verwenden, wird der folgende Datenübermittlungsworkflow empfohlen. Dieser Workflow setzt voraus, dass Sie über ein Azure-Speicherkonto und Daten in einem cloudbasierten Speicherdienst in Azure verfügen.

  1. Erstellen Sie einen Azure Machine Learning-Datenspeicher, um Verbindungsinformationen in Ihrem Azure-Speicher zu speichern.

  2. Erstellen Sie in diesem Datenspeicher ein Azure Machine Learning-Dataset, um auf (eine) bestimmte Datei(en) im zugrunde liegenden Speicher zu verweisen.

  3. Um dieses Dataset in Ihrem Machine Learning-Experiment zu verwenden, können Sie es entweder

    • in das Computeziel Ihres Experiments zum Modelltraining einbinden,

      OR

    • direkt in Azure Machine Learning-Lösungen, z. B. Experimentausführungen für automatisiertes maschinelles Lernen (automatisiertes ML), Machine Learning-Pipelines oder Azure Machine Learning-Designer, verwenden.

  4. Erstellen Sie Datasetüberwachungen für Ihr Modellausgabedataset, um Datendrift zu erkennen.

  5. Wenn Datendrift erkannt wird, aktualisieren Sie Ihr Eingabedataset, und trainieren Sie Ihr Modell entsprechend neu.

In der folgenden Abbildung ist dieser empfohlene Workflow dargestellt.

Die Abbildung zeigt den Azure Storage-Dienst mit einem Flow in einen Datenspeicher, der wiederum einen Flow in ein Dataset aufweist.

Herstellen einer Verbindung zwischen Speicher und Datenspeichern

Azure Machine Learning-Datenspeicher speichern die Verbindungsinformationen für Ihren Datenspeicher sicher in Azure, sodass Sie sie nicht in Ihren Skripts programmieren müssen. Registrieren und erstellen Sie einen Datenspeicher, um auf einfache Weise eine Verbindung mit Ihrem Speicherkonto herstellen und auf die Daten in Ihrem zugrunde liegenden Speicherdienst zugreifen zu können.

Unterstützte cloudbasierte Speicherdienste in Azure, die als Datenspeicher registriert werden können:

  • Azure-Blobcontainer
  • Azure-Dateifreigabe
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL-Datenbank
  • Azure Database for PostgreSQL
  • Databricks-Dateisystem
  • Azure Database for MySQL

Tipp

Sie können Datenspeicher mit anmeldeinformationsbasierter Authentifizierung für den Zugriff auf Speicherdienste erstellen, z. B. einen Dienstprinzipal oder ein SAS-Token (Shared Access Signature). Auf diese Anmeldeinformationen können Benutzer zugreifen, die über Lesezugriff auf den Arbeitsbereich verfügen.

Sollte dies ein Problem darstellen, erstellen Sie einen Datenspeicher mit identitätsbasiertem Datenzugriff, um eine Verbindung mit Speicherdiensten herzustellen.

Verweisen auf Daten im Speicher mit Datasets

Bei Azure Machine Learning-Datasets handelt es sich nicht um Kopien Ihrer Daten. Durch Erstellen eines Datasets erstellen Sie einen Verweis auf die Daten in ihrem Speicherdienst sowie eine Kopie der zugehörigen Metadaten.

Da Datasets nur langsam ausgewertet werden und die Daten am vorhandenen Speicherort verbleiben, profitieren Sie von folgenden Vorteilen:

  • Es entstehen keine zusätzlichen Speicherkosten.
  • Sie laufen nicht Gefahr, unabsichtlich Ihre ursprünglichen Datenquellen zu ändern.
  • Der ML-Workflow wird verbessert und beschleunigt.

Erstellen Sie ein Dataset, um auf Daten in Ihrem Speicher zuzugreifen und die Daten in einem nutzbaren Objekt für Machine Learning-Aufgaben zusammenzustellen. Registrieren Sie das Dataset in Ihrem Arbeitsbereich, um es freizugeben und in verschiedenen Experimenten ohne Datenerfassungskomplexität wiederzuverwenden.

Datasets können aus lokalen Dateien, öffentlichen URLs, Azure Open Datasets oder Azure-Speicherdiensten in Datenspeichern erstellt werden.

Die folgenden beiden Datasettypen stehen zur Verfügung:

  • Ein FileDataset verweist auf eine einzelne Datei oder auf mehrere Dateien in Ihren Datenspeichern oder öffentlichen URLs. Wenn Ihre Daten bereits bereinigt und für Trainingsexperimente bereit sind, können Sie Dateien, auf die von FileDatasets verwiesen wird, auf Ihr Computeziel herunterladen oder sie einbinden.

  • Ein TabularDataset stellt Daten in einem tabellarischen Format dar, indem die bereitgestellte Datei oder Liste von Dateien analysiert wird. Sie können ein TabularDataset zur weiteren Verarbeitung oder zur Bereinigung in einen Pandas- oder Spark-Datenrahmen laden. Eine vollständige Liste der Datenformate, aus denen Sie TabularDatasets erstellen können, finden Sie im Artikel über die TabularDatasetFactory-Klasse.

Weitere Funktionalität für Datasets finden Sie in der folgenden Dokumentation:

Arbeiten mit Ihren Daten

Mit Datasets können Sie eine Reihe von Machine Learning-Aufgaben über nahtlose Integration in Azure Machine Learning-Funktionen ausführen.

Beschriften von Daten mit Datenbeschriftungsprojekten

Das Beschriften großer Datenmengen bereitet in Projekten für maschinelles Lernen (ML) häufig Kopfzerbrechen. Projekte mit einer Komponente für maschinelles Sehen – z. B. zur Bildklassifizierung oder Objekterkennung – erfordern im Allgemeinen Tausende von Bildern und entsprechende Beschriftungen.

Azure Machine Learning ist Ihr zentraler Ort zum Erstellen, Verwalten und Überwachen von Beschriftungsprojekten. Beschriftungsprojekte helfen dabei, Daten, Beschriftungen und Teammitglieder zu koordinieren, sodass Sie die Beschriftungsaufgaben effizienter verwalten können. Zu den zurzeit unterstützten Aufgaben gehören die Bildklassifizierung – mit mehreren Beschriftungen oder mehreren Klassen – und die Objektidentifikation mithilfe von Begrenzungsrahmen.

Erstellen Sie ein Bildbeschriftungsprojekt oder Textbeschriftungsprojekt, und geben Sie ein Dataset aus, das in Machine Learning-Experimenten verwendet werden kann.

Überwachen der Modellleistung mit Datendrift

Im Zusammenhang mit maschinellem Lernen ist die Datenabweichung die Änderung der Modelleingabedaten, die zu einem Abfallen der Modellleistung führt. Datendrift ist einer der Hauptgründe für die Abnahme der Modellgenauigkeit im Lauf der Zeit, daher hilft das Überwachen auf Datendrift bei der Erkennung von Problemen bei der Leistung eines Modells.

Weitere Informationen dazu, wie Sie Datendrift bei neuen Daten in einem Dataset erkennen und melden können, finden Sie im Artikel Erkennen von Datendrift (Vorschau) in Datasets.

Nächste Schritte