Herstellen einer Verbindung mit Daten in Azure Machine Learning Studio
In diesem Artikel erfahren Sie, wie Sie mit Azure Machine Learning Studio auf Ihre Daten zugreifen. Stellen Sie eine Verbindung mit Ihren Daten in Speicherdiensten in Azure mit Azure Machine Learning-Datenspeichern her, und verpacken Sie diese Daten dann für Aufgaben in ihren ML-Workflows mit Azure Machine Learning-Datasets.
In der folgenden Tabelle werden die Vorteile von Datenspeichern und Datasets definiert und zusammengefasst.
Object | BESCHREIBUNG | Vorteile |
---|---|---|
Datenspeicher | Stellen Sie eine sichere Verbindung mit Ihrem Speicherdienst in Azure her, indem Sie Ihre Verbindungsinformationen, wie Ihre Abonnement-ID und Tokenautorisierung, in Ihrem Schlüsseltresor speichern, der mit dem Arbeitsbereich verknüpft ist. | Da Ihre Daten sicher gespeichert sind, |
Datasets | Durch Erstellen eines Datasets erstellen Sie einen Verweis auf den Speicherort der Datenquelle sowie eine Kopie der zugehörigen Metadaten. Datasets ermöglichen Folgendes: |
Da Datasets nur langsam ausgewertet werden und die Daten am vorhandenen Speicherort verbleiben, profitieren Sie von folgenden Vorteilen: |
Informationen dazu, welche Rolle Datenspeicher und Datasets im Workflow für Datenzugriff in Azure Machine Learning spielen, finden Sie im Artikel Sicherer Zugriff auf Daten.
Informationen zu einer Code First-Funktion finden Sie in den folgenden Artikeln, um das Azure Machine Learning Python SDK für Folgendes zu verwenden:
- Herstellen einer Verbindung mit Azure-Speicherdiensten mit Datenspeichern.
- Erstellen von Azure Machine Learning-Datasets.
Voraussetzungen
Ein Azure-Abonnement. Wenn Sie nicht über ein Azure-Abonnement verfügen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen. Probieren Sie die kostenlose oder kostenpflichtige Version von Azure Machine Learning aus.
Zugriff auf Azure Machine Learning Studio.
Ein Azure Machine Learning-Arbeitsbereich. Erstellen von Arbeitsbereichsressourcen
- Wenn Sie einen Arbeitsbereich erstellen, werden automatisch ein Azure-Blobcontainer und eine Azure-Dateifreigabe als Datenspeicher im Arbeitsbereich registriert. Sie erhalten die Namen
workspaceblobstore
undworkspacefilestore
. Wenn Blobspeicher für Ihre Anforderungen ausreicht, wirdworkspaceblobstore
als Standarddatenspeicher festgelegt und bereits für die Verwendung konfiguriert. Andernfalls benötigen Sie ein Speicherkonto in Azure mit einem unterstützten Speichertyp.
- Wenn Sie einen Arbeitsbereich erstellen, werden automatisch ein Azure-Blobcontainer und eine Azure-Dateifreigabe als Datenspeicher im Arbeitsbereich registriert. Sie erhalten die Namen
Erstellen von Datenspeichern
Aus diesen Azure-Speicherlösungen können Sie Datenspeicher erstellen. Für nicht unterstützte Speicherlösungen sowie zur Einsparung von Kosten für ausgehende Daten bei ML-Experimenten müssen Sie Ihre Daten in eine unterstützte Azure-Speicherlösung verschieben. Weitere Informationen zu Datenspeichern.
Sie können Datenspeicher mit auf Anmeldeinformationen basierendem Zugriff oder identitätsbasiertem Zugriff erstellen.
Erstellen Sie einen neuen Datenspeicher in wenigen Schritten mit Azure Machine Learning Studio.
Wichtig
Wenn sich Ihr Datenspeicherkonto in einem virtuellen Netzwerk befindet, sind zusätzliche Konfigurationsschritte erforderlich, um sicherzustellen, dass von Studio auf Ihre Daten zugegriffen werden kann. Stellen Sie wie unter Netzwerkisolation und Datenschutz beschrieben sicher, dass die erforderlichen Konfigurationsschritte ausgeführt wurden.
- Melden Sie sich bei Azure Machine Learning Studio an.
- Wählen Sie Daten im linken Bereich unter Ressourcen aus.
- Wählen Sie oben Datenspeicher aus.
- Wählen Sie +Erstellen aus.
- Füllen Sie das Formular aus, um einen neuen Datenspeicher zu erstellen und zu registrieren. Das Formular aktualisiert sich ausgehend von den ausgewählten Optionen für den Azure-Speichertyp und den Authentifizierungstyp intelligent selbst. Lesen Sie den Abschnitt Speicherzugriff und Berechtigungen, um zu erfahren, wo Sie die erforderlichen Anmeldeinformationen zum Ausfüllen dieses Formulars finden.
Das folgende Beispiel zeigt, wie das Formular aussieht, wenn Sie einen Azure-Blobdatenspeicher erstellen:
Erstellen von Datenressourcen
Nachdem Sie einen Datenspeicher erstellt haben, erstellen Sie ein Dataset, um mit Ihren Daten zu interagieren. Datasets packen Ihre Daten in ein selten ausgewertetes Objekt für Aufgaben des maschinellen Lernens wie das Training. Erfahren Sie mehr über Datasets.
Es gibt zwei Arten von Datasets: FileDataset und TabularDataset. FileDatasets erstellen Verweise auf mindestens eine Datei oder auf öffentliche URLs. TabularDatasets stellen Ihre Daten in einem Tabellenformat dar. Sie können „TabularDatasets“ auf der Grundlage von CSV-, TSV-, Parquet- und JSONL-Dateien sowie auf der Grundlage von SQL-Abfrageergebnissen erstellen.
In den folgenden Schritten wird beschrieben, wie ein Dataset im Azure Machine Learning Studio erstellt wird.
Hinweis
Datasets, die über Azure Machine Learning Studio erstellt werden, werden automatisch beim Arbeitsbereich registriert.
Navigieren Sie zu Azure Machine Learning Studio.
Wählen Sie unter Ressourcen im linken Navigationsbereich die Option Daten aus. Wählen Sie auf der Registerkarte „Datenressourcen“ die Option „Erstellen“ aus.
Geben Sie Ihrer Datenressource einen Namen und eine optionale Beschreibung. Wählen Sie dann unter Typ einen der Datasettypen aus, entweder Datei oder Tabellarisch.
Sie haben einige Optionen für Ihre Datenquelle. Wenn Ihre Daten bereits in Azure gespeichert sind, wählen Sie „Aus Azure-Speicher“ aus. Wenn Sie Daten von Ihrem lokalen Laufwerk hochladen möchten, wählen Sie „Aus lokalen Dateien“ aus. Wenn Ihre Daten an einem öffentlichen Webspeicherort gespeichert sind, wählen Sie „Aus Webdateien“ aus. Sie können auch eine Datenressource aus einer SQL-Datenbank oder aus Azure Open Datasets erstellen.
Wählen Sie für den Dateiauswahlschritt aus, wo Ihre Daten in Azure gespeichert werden sollen, und welche Datendateien Sie verwenden möchten.
- Aktivieren Sie das Überspringen der Überprüfung, wenn sich Ihre Daten in einem virtuellen Netzwerk befinden. Weitere Informationen finden Sie unter Isolierung virtueller Netzwerke und Datenschutz.
Befolgen Sie die Schritte, um die Datenanalyseeinstellungen und das Schema für Ihre Datenressource festzulegen. Die Einstellungen werden basierend auf dem Dateityp vorausgefüllt, und Sie können Ihre Einstellungen weiter konfigurieren, bevor Sie die Datenressource erstellen.
Nachdem Sie den Schritt „Überprüfen“ erreicht haben, klicken Sie auf der letzten Seite auf „Erstellen“.
Datenvorschau und Profil
Nachdem Sie das Dataset erstellt haben, überprüfen Sie anhand der folgenden Schritte, ob Sie die Vorschau und das Profil in Studio anzeigen können.
- Melden Sie sich bei Azure Machine Learning Studio an.
- Wählen Sie unter Ressourcen im linken Navigationsbereich die Option Daten aus.
- Wählen Sie den Namen des Datasets aus, das Sie anzeigen möchten.
- Wählen Sie die Registerkarte Explore (Untersuchen).
- Wählen Sie die Registerkarte Vorschau aus.
- Wählen Sie die Registerkarte Profil aus.
Sie können eine Vielzahl von Zusammenfassungsstatistiken zu Ihrem Dataset erhalten, um zu überprüfen, ob Ihr Dataset für ML bereit ist. Für nicht numerische Spalten sind nur grundlegende Statistiken wie Mindestwert, Maximalwert und Fehleranzahl enthalten. Für numerische Spalten können Sie auch ihre statistische Zeit und die geschätzten Quantile überprüfen.
Das Datenprofil des Azure Machine Learning-Datasets enthält insbesondere Folgendes:
Hinweis
Leere Einträge werden für Features mit irrelevanten Typen angezeigt.
Statistik | BESCHREIBUNG |
---|---|
Funktion | Der Name der Spalte, die zusammengefasst wird. |
Profil | Eine Inlinevisualisierung basierend auf dem abgeleiteten Typ. Beispielsweise weisen Zeichenfolgen, boolesche Werte und Datumsangaben Wertanzahlen auf, während Dezimalwerte (numerische Werte) Näherungswerte für Histogramme besitzen. Dadurch können Sie einen schnellen Überblick über die Verteilung der Daten erhalten. |
Typverteilung | Eine Inlinewertanzahl von Typen in einer Spalte. NULL-Werte sind eigene Typen, sodass diese Visualisierung für die Erkennung von ungewöhnlichen oder fehlenden Werten nützlich ist. |
type | Der abgeleitete Typ der Spalte. Mögliche Werte: Zeichenfolgen, boolesche Werte, Datumsangaben und Dezimalwerte. |
Min | Der Mindestwert der Spalte. Leere Einträge werden für Features angezeigt, deren Typ keine inhärente Reihenfolge aufweist (z. B. boolesche Werte). |
Max | Der Höchstwert der Spalte. |
Anzahl | Die Gesamtanzahl der fehlenden und nicht fehlenden Einträge in der Spalte. |
Fehlt nicht (Anzahl) | Die Anzahl der nicht fehlenden Einträge in der Spalte. Leere Zeichenfolgen und Fehler werden als Werte behandelt, damit sie nicht zur „Anzahl nicht fehlender“ beitragen. |
Quantile | Die geschätzten Werte in jedem Quantil, um einen Eindruck von der Verteilung der Daten bereitzustellen. |
Mittelwert | Das arithmetische Mittel der Spalte. |
Standardabweichung | Das Maß der Verteilung oder Abweichung der Daten dieser Spalte. |
Variance | Das Maß, wie weit die Daten dieser Spalte gegenüber dem Durchschnittswert verteilt sind. |
Schiefe | Das Maß für die Unterschiede zwischen den Daten dieser Spalte und der normalen Verteilung. |
Kurtosis | Das Maß für die schweren Ränder der Daten dieser Spalte im Vergleich mit der normalen Verteilung. |
Speicherzugriff und Berechtigungen
Um sicherzustellen, dass eine sichere Verbindung mit Ihrem Azure-Speicherdienst hergestellt wird, erfordert Azure Machine Learning, dass Sie über die Berechtigung zum Zugreifen auf den entsprechenden Datenspeicher verfügen. Dieser Zugriff ist von den Anmeldeinformationen für die Authentifizierung abhängig, die zum Registrieren des Datenspeichers verwendet werden.
Virtuelles Netzwerk
Wenn sich Ihr Datenspeicherkonto in einem virtuellen Netzwerk befindet, sind zusätzliche Konfigurationsschritte erforderlich, um sicherzustellen, dass Azure Machine Learning auf Ihre Daten zugreifen kann. Stellen Sie wie unter Verwenden von Azure Machine Learning Studio in einem virtuellen Netzwerk beschrieben sicher, dass die erforderlichen Konfigurationsschritte ausgeführt werden, wenn Sie Ihren Datenspeicher erstellen und registrieren.
Zugriffsüberprüfung
Warnung
Mandantenübergreifender Zugriff auf Speicherkonten wird nicht unterstützt. Wenn für Ihr Szenario mandantenübergreifender Zugriff erforderlich ist, wenden Sie sich unter dem Alias amldatasupport@microsoft.com an das Azure Machine Learning-Datensupportteam, um Unterstützung bei einer Lösung mit benutzerdefiniertem Code zu erhalten.
Im Rahmen des ersten Erstellungs- und Registrierungsvorgangs des Datenspeichers überprüft Azure Machine Learning automatisch, ob der zugrunde liegende Speicherdienst vorhanden ist und der vom Benutzer bereitgestellte Prinzipal (Benutzername, Dienstprinzipal oder SAS-Token) Zugriff auf den angegebenen Speicher hat.
Nach dem Erstellen des Datenspeichers wird diese Überprüfung nur noch für Methoden ausgeführt, die Zugriff auf den zugrunde liegenden Speichercontainer benötigen, und nicht bei jedem Abruf von Datenspeicherobjekten. Beispielsweise erfolgt eine Überprüfung, wenn Sie Dateien aus Ihrem Datenspeicher herunterladen möchten. Wenn Sie jedoch nur den Standarddatenspeicher ändern möchten, findet keine Überprüfung statt.
Um Ihren Zugriff auf den zugrunde liegenden Speicherdienst zu authentifizieren, können Sie je nach zu erstellendem Datenspeichertyp entweder Ihren Kontoschlüssel, SAS-Token (SAS = Shared Access Signatures) oder einen Dienstprinzipal bereitstellen. In der Speichertypmatrix werden die unterstützten Authentifizierungstypen aufgeführt, die den einzelnen Datenspeichertypen entsprechen.
Informationen zu Kontoschlüssel, SAS-Token und Dienstprinzipal finden Sie im Azure-Portal.
Wenn Sie beabsichtigen, einen Kontoschlüssel oder ein SAS-Token für die Authentifizierung zu verwenden, wählen Sie im linken Bereich Speicherkonten und dann das Speicherkonto aus, das Sie registrieren möchten.
- Die Seite Übersicht enthält Informationen wie den Kontonamen und den Namen des Containers oder der Dateifreigabe.
- Wechseln Sie für Kontoschlüssel zu Kontoschlüssel im Bereich Einstellungen.
- Für SAS-Token wechseln Sie zu Shared Access Signatures im Bereich Einstellungen.
- Die Seite Übersicht enthält Informationen wie den Kontonamen und den Namen des Containers oder der Dateifreigabe.
Wenn Sie einen Dienstprinzipal für die Authentifizierung verwenden möchten, navigieren Sie zu Ihren App-Registrierungen, und wählen Sie die gewünschte App aus.
- Auf der entsprechenden Übersichtsseite werden erforderliche Informationen wie Mandanten-ID und Client-ID angezeigt.
Wichtig
- Wenn Sie Ihre Zugriffsschlüssel für ein Azure Storage-Konto (Kontoschlüssel oder SAS-Token) ändern müssen, stellen Sie sicher, dass die neuen Anmeldeinformationen mit Ihrem Arbeitsbereich und den damit verbundenen Datenspeichern synchronisiert werden. Eine Anleitung zum Synchronisieren Ihrer aktualisierten Anmeldeinformationen finden Sie hier.
- Wenn Sie die Registrierung aufheben und einen Datenspeicher mit dem gleichen Namen erneut registrieren und dabei ein Fehler auftritt, ist bei dem Azure Key Vault für Ihren Arbeitsbereich vorläufiges Löschen möglicherweise nicht aktiviert. Standardmäßig ist vorläufiges Löschen für die Key Vault-Instanz aktiviert, die von Ihrem Arbeitsbereich erstellt wurde. Es ist jedoch möglicherweise nicht aktiviert, wenn Sie einen vorhandenen Schlüsseltresor verwendet haben oder einen Arbeitsbereich vor Oktober 2020 erstellt haben. Informationen zum Aktivieren des vorläufigen Löschens finden Sie unter Aktivieren des vorläufigen Löschens für einen vorhandenen Schlüsseltresor.
Berechtigungen
Stellen Sie für Azure-Blobcontainer und Azure Data Lake Gen2-Speicher sicher, dass Ihre Anmeldeinformationen für die Authentifizierung über den Zugriff Storage-Blobdatenleser verfügen. Erfahren Sie mehr über Storage-Blobdatenleser. Ein Konto-SAS-Token besitzt standardmäßig keine Berechtigungen.
Für den Lesezugriff auf Daten müssen Ihre Anmeldeinformationen für die Authentifizierung mindestens die Berechtigungen zum Auflisten und Lesen für Container und Objekte besitzen.
Für den Schreibzugriff auf Daten sind auch Berechtigungen zum Schreiben und Hinzufügen erforderlich.
Trainieren mit Datasets
Verwenden Sie Ihre Datasets in Ihren Machine Learning-Experimenten zum Trainieren von ML-Modellen. Erfahren Sie mehr über das Trainieren mit Datasets.
Nächste Schritte
Schrittweises Beispiel für das Training mit TabularDatasets und automatisiertem Machine Learning.
Weitere Beispiele zum Trainieren von Datasets finden Sie in den Beispielnotebooks.