Herstellen einer Verbindung mit Daten in Azure Machine Learning Studio

Artikel
06/03/2023

In diesem Artikel erfahren Sie, wie Sie mit Azure Machine Learning Studio auf Ihre Daten zugreifen. Stellen Sie eine Verbindung mit Ihren Daten in Speicherdiensten in Azure mit Azure Machine Learning-Datenspeichern her, und verpacken Sie diese Daten dann für Aufgaben in ihren ML-Workflows mit Azure Machine Learning-Datasets.

In der folgenden Tabelle werden die Vorteile von Datenspeichern und Datasets definiert und zusammengefasst.

Object	BESCHREIBUNG	Vorteile
Datenspeicher	Stellen Sie eine sichere Verbindung mit Ihrem Speicherdienst in Azure her, indem Sie Ihre Verbindungsinformationen, wie Ihre Abonnement-ID und Tokenautorisierung, in Ihrem Schlüsseltresor speichern, der mit dem Arbeitsbereich verknüpft ist.	Da Ihre Daten sicher gespeichert sind, Setzen Sie Authentifizierungsanmeldeinformationen oder ursprüngliche Datenquellen keinem Risiko aus. Sie müssen Sie nicht mehr in Ihren Skripts hartcodieren.
Datasets	Durch Erstellen eines Datasets erstellen Sie einen Verweis auf den Speicherort der Datenquelle sowie eine Kopie der zugehörigen Metadaten. Datasets ermöglichen Folgendes: Zugreifen auf Daten während des Modelltrainings. Freigeben von Daten und Zusammenarbeiten mit anderen Benutzern Nutzen von Open-Source-Bibliotheken wie Pandas zum Untersuchen von Daten.	Da Datasets nur langsam ausgewertet werden und die Daten am vorhandenen Speicherort verbleiben, profitieren Sie von folgenden Vorteilen: Aufbewahren einer einzelnen Datenkopie in Ihrem Speicher. Keine zusätzlichen Speicherkosten. Sie laufen nicht Gefahr, unabsichtlich Ihre ursprünglichen Datenquellen zu ändern. Der ML-Workflow wird verbessert und beschleunigt.

Informationen dazu, welche Rolle Datenspeicher und Datasets im Workflow für Datenzugriff in Azure Machine Learning spielen, finden Sie im Artikel Sicherer Zugriff auf Daten.

Informationen zu einer Code First-Funktion finden Sie in den folgenden Artikeln, um das Azure Machine Learning Python SDK für Folgendes zu verwenden:

Voraussetzungen

Ein Azure-Abonnement. Wenn Sie nicht über ein Azure-Abonnement verfügen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen. Probieren Sie die kostenlose oder kostenpflichtige Version von Azure Machine Learning aus.
Zugriff auf Azure Machine Learning Studio.
Ein Azure Machine Learning-Arbeitsbereich. Erstellen von Arbeitsbereichsressourcen
- Wenn Sie einen Arbeitsbereich erstellen, werden automatisch ein Azure-Blobcontainer und eine Azure-Dateifreigabe als Datenspeicher im Arbeitsbereich registriert. Sie erhalten die Namen workspaceblobstore und workspacefilestore. Wenn Blobspeicher für Ihre Anforderungen ausreicht, wird workspaceblobstore als Standarddatenspeicher festgelegt und bereits für die Verwendung konfiguriert. Andernfalls benötigen Sie ein Speicherkonto in Azure mit einem unterstützten Speichertyp.

Erstellen von Datenspeichern

Aus diesen Azure-Speicherlösungen können Sie Datenspeicher erstellen. Für nicht unterstützte Speicherlösungen sowie zur Einsparung von Kosten für ausgehende Daten bei ML-Experimenten müssen Sie Ihre Daten in eine unterstützte Azure-Speicherlösung verschieben. Weitere Informationen zu Datenspeichern.

Sie können Datenspeicher mit auf Anmeldeinformationen basierendem Zugriff oder identitätsbasiertem Zugriff erstellen.

Auf Anmeldeinformationen basierend
Identitätsbasiert

Erstellen Sie einen neuen Datenspeicher in wenigen Schritten mit Azure Machine Learning Studio.

Wichtig

Wenn sich Ihr Datenspeicherkonto in einem virtuellen Netzwerk befindet, sind zusätzliche Konfigurationsschritte erforderlich, um sicherzustellen, dass von Studio auf Ihre Daten zugegriffen werden kann. Stellen Sie wie unter Netzwerkisolation und Datenschutz beschrieben sicher, dass die erforderlichen Konfigurationsschritte ausgeführt wurden.

Melden Sie sich bei Azure Machine Learning Studio an.
Wählen Sie Daten im linken Bereich unter Ressourcen aus.
Wählen Sie oben Datenspeicher aus.
Wählen Sie +Erstellen aus.
Füllen Sie das Formular aus, um einen neuen Datenspeicher zu erstellen und zu registrieren. Das Formular aktualisiert sich ausgehend von den ausgewählten Optionen für den Azure-Speichertyp und den Authentifizierungstyp intelligent selbst. Lesen Sie den Abschnitt Speicherzugriff und Berechtigungen, um zu erfahren, wo Sie die erforderlichen Anmeldeinformationen zum Ausfüllen dieses Formulars finden.

Das folgende Beispiel zeigt, wie das Formular aussieht, wenn Sie einen Azure-Blobdatenspeicher erstellen:

Form for a new datastore

Erstellen von Datenressourcen

Nachdem Sie einen Datenspeicher erstellt haben, erstellen Sie ein Dataset, um mit Ihren Daten zu interagieren. Datasets packen Ihre Daten in ein selten ausgewertetes Objekt für Aufgaben des maschinellen Lernens wie das Training. Erfahren Sie mehr über Datasets.

Es gibt zwei Arten von Datasets: FileDataset und TabularDataset. FileDatasets erstellen Verweise auf mindestens eine Datei oder auf öffentliche URLs. TabularDatasets stellen Ihre Daten in einem Tabellenformat dar. Sie können „TabularDatasets“ auf der Grundlage von CSV-, TSV-, Parquet- und JSONL-Dateien sowie auf der Grundlage von SQL-Abfrageergebnissen erstellen.

In den folgenden Schritten wird beschrieben, wie ein Dataset im Azure Machine Learning Studio erstellt wird.

Hinweis

Datasets, die über Azure Machine Learning Studio erstellt werden, werden automatisch beim Arbeitsbereich registriert.

Navigieren Sie zu Azure Machine Learning Studio.
Wählen Sie unter Ressourcen im linken Navigationsbereich die Option Daten aus. Wählen Sie auf der Registerkarte „Datenressourcen“ die Option „Erstellen“ aus.
Geben Sie Ihrer Datenressource einen Namen und eine optionale Beschreibung. Wählen Sie dann unter Typ einen der Datasettypen aus, entweder Datei oder Tabellarisch.
Sie haben einige Optionen für Ihre Datenquelle. Wenn Ihre Daten bereits in Azure gespeichert sind, wählen Sie „Aus Azure-Speicher“ aus. Wenn Sie Daten von Ihrem lokalen Laufwerk hochladen möchten, wählen Sie „Aus lokalen Dateien“ aus. Wenn Ihre Daten an einem öffentlichen Webspeicherort gespeichert sind, wählen Sie „Aus Webdateien“ aus. Sie können auch eine Datenressource aus einer SQL-Datenbank oder aus Azure Open Datasets erstellen.
Wählen Sie für den Dateiauswahlschritt aus, wo Ihre Daten in Azure gespeichert werden sollen, und welche Datendateien Sie verwenden möchten.
1. Aktivieren Sie das Überspringen der Überprüfung, wenn sich Ihre Daten in einem virtuellen Netzwerk befinden. Weitere Informationen finden Sie unter Isolierung virtueller Netzwerke und Datenschutz.
Befolgen Sie die Schritte, um die Datenanalyseeinstellungen und das Schema für Ihre Datenressource festzulegen. Die Einstellungen werden basierend auf dem Dateityp vorausgefüllt, und Sie können Ihre Einstellungen weiter konfigurieren, bevor Sie die Datenressource erstellen.
Nachdem Sie den Schritt „Überprüfen“ erreicht haben, klicken Sie auf der letzten Seite auf „Erstellen“.

Datenvorschau und Profil

Nachdem Sie das Dataset erstellt haben, überprüfen Sie anhand der folgenden Schritte, ob Sie die Vorschau und das Profil in Studio anzeigen können.

Melden Sie sich bei Azure Machine Learning Studio an.
Wählen Sie unter Ressourcen im linken Navigationsbereich die Option Daten aus.
Wählen Sie den Namen des Datasets aus, das Sie anzeigen möchten.
Wählen Sie die Registerkarte Explore (Untersuchen).
Wählen Sie die Registerkarte Vorschau aus.
Wählen Sie die Registerkarte Profil aus.

Sie können eine Vielzahl von Zusammenfassungsstatistiken zu Ihrem Dataset erhalten, um zu überprüfen, ob Ihr Dataset für ML bereit ist. Für nicht numerische Spalten sind nur grundlegende Statistiken wie Mindestwert, Maximalwert und Fehleranzahl enthalten. Für numerische Spalten können Sie auch ihre statistische Zeit und die geschätzten Quantile überprüfen.

Das Datenprofil des Azure Machine Learning-Datasets enthält insbesondere Folgendes:

Hinweis

Leere Einträge werden für Features mit irrelevanten Typen angezeigt.

Statistik	BESCHREIBUNG
Funktion	Der Name der Spalte, die zusammengefasst wird.
Profil	Eine Inlinevisualisierung basierend auf dem abgeleiteten Typ. Beispielsweise weisen Zeichenfolgen, boolesche Werte und Datumsangaben Wertanzahlen auf, während Dezimalwerte (numerische Werte) Näherungswerte für Histogramme besitzen. Dadurch können Sie einen schnellen Überblick über die Verteilung der Daten erhalten.
Typverteilung	Eine Inlinewertanzahl von Typen in einer Spalte. NULL-Werte sind eigene Typen, sodass diese Visualisierung für die Erkennung von ungewöhnlichen oder fehlenden Werten nützlich ist.
type	Der abgeleitete Typ der Spalte. Mögliche Werte: Zeichenfolgen, boolesche Werte, Datumsangaben und Dezimalwerte.
Min	Der Mindestwert der Spalte. Leere Einträge werden für Features angezeigt, deren Typ keine inhärente Reihenfolge aufweist (z. B. boolesche Werte).
Max	Der Höchstwert der Spalte.
Anzahl	Die Gesamtanzahl der fehlenden und nicht fehlenden Einträge in der Spalte.
Fehlt nicht (Anzahl)	Die Anzahl der nicht fehlenden Einträge in der Spalte. Leere Zeichenfolgen und Fehler werden als Werte behandelt, damit sie nicht zur „Anzahl nicht fehlender“ beitragen.
Quantile	Die geschätzten Werte in jedem Quantil, um einen Eindruck von der Verteilung der Daten bereitzustellen.
Mittelwert	Das arithmetische Mittel der Spalte.
Standardabweichung	Das Maß der Verteilung oder Abweichung der Daten dieser Spalte.
Variance	Das Maß, wie weit die Daten dieser Spalte gegenüber dem Durchschnittswert verteilt sind.
Schiefe	Das Maß für die Unterschiede zwischen den Daten dieser Spalte und der normalen Verteilung.
Kurtosis	Das Maß für die schweren Ränder der Daten dieser Spalte im Vergleich mit der normalen Verteilung.

Speicherzugriff und Berechtigungen

Um sicherzustellen, dass eine sichere Verbindung mit Ihrem Azure-Speicherdienst hergestellt wird, erfordert Azure Machine Learning, dass Sie über die Berechtigung zum Zugreifen auf den entsprechenden Datenspeicher verfügen. Dieser Zugriff ist von den Anmeldeinformationen für die Authentifizierung abhängig, die zum Registrieren des Datenspeichers verwendet werden.

Virtuelles Netzwerk

Wenn sich Ihr Datenspeicherkonto in einem virtuellen Netzwerk befindet, sind zusätzliche Konfigurationsschritte erforderlich, um sicherzustellen, dass Azure Machine Learning auf Ihre Daten zugreifen kann. Stellen Sie wie unter Verwenden von Azure Machine Learning Studio in einem virtuellen Netzwerk beschrieben sicher, dass die erforderlichen Konfigurationsschritte ausgeführt werden, wenn Sie Ihren Datenspeicher erstellen und registrieren.

Zugriffsüberprüfung

Warnung

Mandantenübergreifender Zugriff auf Speicherkonten wird nicht unterstützt. Wenn für Ihr Szenario mandantenübergreifender Zugriff erforderlich ist, wenden Sie sich unter dem Alias amldatasupport@microsoft.com an das Azure Machine Learning-Datensupportteam, um Unterstützung bei einer Lösung mit benutzerdefiniertem Code zu erhalten.

Im Rahmen des ersten Erstellungs- und Registrierungsvorgangs des Datenspeichers überprüft Azure Machine Learning automatisch, ob der zugrunde liegende Speicherdienst vorhanden ist und der vom Benutzer bereitgestellte Prinzipal (Benutzername, Dienstprinzipal oder SAS-Token) Zugriff auf den angegebenen Speicher hat.

Nach dem Erstellen des Datenspeichers wird diese Überprüfung nur noch für Methoden ausgeführt, die Zugriff auf den zugrunde liegenden Speichercontainer benötigen, und nicht bei jedem Abruf von Datenspeicherobjekten. Beispielsweise erfolgt eine Überprüfung, wenn Sie Dateien aus Ihrem Datenspeicher herunterladen möchten. Wenn Sie jedoch nur den Standarddatenspeicher ändern möchten, findet keine Überprüfung statt.

Um Ihren Zugriff auf den zugrunde liegenden Speicherdienst zu authentifizieren, können Sie je nach zu erstellendem Datenspeichertyp entweder Ihren Kontoschlüssel, SAS-Token (SAS = Shared Access Signatures) oder einen Dienstprinzipal bereitstellen. In der Speichertypmatrix werden die unterstützten Authentifizierungstypen aufgeführt, die den einzelnen Datenspeichertypen entsprechen.

Informationen zu Kontoschlüssel, SAS-Token und Dienstprinzipal finden Sie im Azure-Portal.

Wenn Sie beabsichtigen, einen Kontoschlüssel oder ein SAS-Token für die Authentifizierung zu verwenden, wählen Sie im linken Bereich Speicherkonten und dann das Speicherkonto aus, das Sie registrieren möchten.
- Die Seite Übersicht enthält Informationen wie den Kontonamen und den Namen des Containers oder der Dateifreigabe.
  1. Wechseln Sie für Kontoschlüssel zu Kontoschlüssel im Bereich Einstellungen.
  2. Für SAS-Token wechseln Sie zu Shared Access Signatures im Bereich Einstellungen.
Wenn Sie einen Dienstprinzipal für die Authentifizierung verwenden möchten, navigieren Sie zu Ihren App-Registrierungen, und wählen Sie die gewünschte App aus.
- Auf der entsprechenden Übersichtsseite werden erforderliche Informationen wie Mandanten-ID und Client-ID angezeigt.

Wichtig

Wenn Sie Ihre Zugriffsschlüssel für ein Azure Storage-Konto (Kontoschlüssel oder SAS-Token) ändern müssen, stellen Sie sicher, dass die neuen Anmeldeinformationen mit Ihrem Arbeitsbereich und den damit verbundenen Datenspeichern synchronisiert werden. Eine Anleitung zum Synchronisieren Ihrer aktualisierten Anmeldeinformationen finden Sie hier.
Wenn Sie die Registrierung aufheben und einen Datenspeicher mit dem gleichen Namen erneut registrieren und dabei ein Fehler auftritt, ist bei dem Azure Key Vault für Ihren Arbeitsbereich vorläufiges Löschen möglicherweise nicht aktiviert. Standardmäßig ist vorläufiges Löschen für die Key Vault-Instanz aktiviert, die von Ihrem Arbeitsbereich erstellt wurde. Es ist jedoch möglicherweise nicht aktiviert, wenn Sie einen vorhandenen Schlüsseltresor verwendet haben oder einen Arbeitsbereich vor Oktober 2020 erstellt haben. Informationen zum Aktivieren des vorläufigen Löschens finden Sie unter Aktivieren des vorläufigen Löschens für einen vorhandenen Schlüsseltresor.

Berechtigungen

Stellen Sie für Azure-Blobcontainer und Azure Data Lake Gen2-Speicher sicher, dass Ihre Anmeldeinformationen für die Authentifizierung über den Zugriff Storage-Blobdatenleser verfügen. Erfahren Sie mehr über Storage-Blobdatenleser. Ein Konto-SAS-Token besitzt standardmäßig keine Berechtigungen.

Für den Lesezugriff auf Daten müssen Ihre Anmeldeinformationen für die Authentifizierung mindestens die Berechtigungen zum Auflisten und Lesen für Container und Objekte besitzen.
Für den Schreibzugriff auf Daten sind auch Berechtigungen zum Schreiben und Hinzufügen erforderlich.

Trainieren mit Datasets

Verwenden Sie Ihre Datasets in Ihren Machine Learning-Experimenten zum Trainieren von ML-Modellen. Erfahren Sie mehr über das Trainieren mit Datasets.

Nächste Schritte

Schrittweises Beispiel für das Training mit TabularDatasets und automatisiertem Machine Learning.
Trainieren eines Modells.
Weitere Beispiele zum Trainieren von Datasets finden Sie in den Beispielnotebooks.