Share via


Datenverwaltung

Erfahren Sie, wie Sie den Datenzugriff verwalten und wie Sie in Azure Machine Learning authentifizieren.

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

Wichtig

Dieser Artikel richtet sich an Azure-Administrator*innen, die die für eine Azure Machine Learning-Lösung erforderliche Infrastruktur erstellen möchten.

Anmeldeinformationsbasierte Datenauthentifizierung

Im Allgemeinen umfasst die anmeldeinformationsbasierte Datenauthentifizierung die folgenden Überprüfungen:

  • Wurde dem Benutzer, der auf Daten aus dem auf Anmeldeinformationen basierenden Datenspeicher zugreift, eine Rolle mit rollenbasierter Zugriffssteuerung (Role-Based Access Control, RBAC) zugewiesen, die Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action enthält?

    • Diese Berechtigung ist erforderlich, um Anmeldeinformationen aus dem Datenspeicher für den Benutzer abzurufen.
    • Integrierte Rollen, die diese Berechtigung bereits enthalten, sind Mitwirkender, „Azure KI-Fachkraft in der Entwicklung“ oder Wissenschaftliche Fachkraft für Daten in Azure Machine Learning. Wenn alternativ eine benutzerdefinierte Rolle angewendet wird, müssen wir sicherstellen, dass diese Berechtigung dieser benutzerdefinierten Rolle hinzugefügt wird.
    • Sie müssen wissen, welcher bestimmter Benutzer versucht, auf die Daten zuzugreifen. Dabei kann es sich um einen echten Benutzer mit einer Benutzeridentität oder um einen Computer mit verwalteter Compute-Identität (MSI) handeln. Weitere Informationen finden Sie im Abschnitt Szenarien und Authentifizierungsoptionen, um die Identität zu identifizieren, für die Sie die Berechtigung hinzufügen müssen.
  • Hat die gespeicherte Anmeldeinformation (Dienstprinzipal, Kontoschlüssel oder SAS (Shared Access Signature)-Token) Zugriff auf die Datenressource?

Identitätsbasierte Datenauthentifizierung

Im Allgemeinen umfasst die identitätsbasierte Datenauthentifizierung die folgenden Prüfungen:

  • Welche Benutzer*innen möchten auf die Ressourcen zugreifen?
    • Je nachdem, in welchem Kontext auf die Daten zugegriffen wird, stehen verschiedene Authentifizierungstypen zur Verfügung, beispielsweise:
      • Benutzeridentität
      • Verwaltete Compute-Identität
      • Vom Arbeitsbereich verwaltete Identität
    • Aufträge, einschließlich der Option Generate Profile für Datasets, werden in einer Compute-Ressource in Ihrem Abonnement ausgeführt und greifen von diesem Speicherort aus auf die Daten zu. Die verwaltete Compute-Identität benötigt die Berechtigung für die Speicherressource und nicht die Identität des Benutzers, der den Auftrag übermittelt hat.
    • Für die Authentifizierung auf der Grundlage einer Benutzeridentität müssen Sie wissen, welche bestimmten Benutzer*innen versucht haben, auf die Speicherressource zuzugreifen. Weitere Informationen zur Benutzer-Authentifizierung finden Sie unter Authentifizierung für Azure Machine Learning. Weitere Informationen zur Authentifizierung auf Dienstebene finden Sie unter Authentifizierung zwischen Azure Machine Learning und anderen Diensten.
  • Verfügt dieser Benutzer über die Berechtigung zum Lesen?
    • Verfügt die Benutzeridentität oder die verwaltete Compute-Identität über die erforderlichen Berechtigungen für diese Speicherressource? Berechtigungen werden mithilfe von Azure RBAC erteilt.
    • Der Leser des Speicherkontos liest die Speichermetadaten.
    • Der Storage Blob-Datenleser liest und listet Speichercontainer und Blobs auf.
    • Weitere Informationen finden Sie unter integrierten Azure-Rollen für Speicher.
  • Verfügt dieser Benutzer über die Berechtigung zum Schreiben?
    • Verfügt die Benutzeridentität oder die verwaltete Compute-Identität über die erforderlichen Berechtigungen für diese Speicherressource? Berechtigungen werden mithilfe von Azure RBAC erteilt.
    • Der Leser des Speicherkontos liest die Speichermetadaten.
    • Der Mitwirkende von Speicher-Blobdaten liest, schreibt und löscht Azure Storage-Container und Blobs.
    • Weitere Informationen finden Sie unter integrierten Azure-Rollen für Speicher.

Weitere allgemeine Überprüfungen auf Authentifizierung

  • Woher erfolgt der Zugriff?
    • Benutzer: Befindet sich die Client-IP-Adresse im virtuellen Netzwerk-/Subnetzbereich?
    • Arbeitsbereich: Ist der Arbeitsbereich öffentlich oder verfügt er über einen privaten Endpunkt in einem virtuellen Netzwerk/Subnetz?
    • Speicher: Lässt der Speicher öffentlichen Zugriff zu, oder schränkt er den Zugriff über einen Dienstendpunkt oder einen privaten Endpunkt ein?
  • Welcher Vorgang wird ausgeführt?
    • CRUD-Vorgänge (Create, Read, Update, Delete) für einen Datenspeicher/ein Dataset werden von Azure Machine Learning verarbeitet.
    • Archivvorgänge für Datenressourcen in Azure Machine Learning Studio erfordern diesen RBAC-Vorgang: Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
    • Datenzugriffsaufrufe (z. B. Vorschau oder Schema) wechseln zum zugrunde liegenden Speicher und benötigen zusätzliche Berechtigungen.
  • Wird dieser Vorgang in den Compute-Ressourcen in Ihrem Azure-Abonnement oder in den in einem Microsoft-Abonnement gehosteten Ressourcen ausgeführt?
    • Alle Aufrufe von Dataset- und Datenspeicherdiensten (mit Ausnahme der Option Generate Profile) verwenden Ressourcen, die in einem Microsoft-Abonnement gehostet werden, um die Vorgänge auszuführen.
    • Aufträge, einschließlich der Option Generate Profile für Datasets, werden in einer Computeressource in Ihrem Abonnement ausgeführt und greifen von diesem Speicherort aus auf die Daten zu. Die Compute-Identität benötigt die Berechtigung für die Speicherressource und nicht die Identität des Benutzers, der den Auftrag übermittelt hat.

Das folgende Diagramm zeigt den allgemeinen Ablauf eines Datenzugriffsaufrufs. Hier versucht ein Benutzer, einen Datenzugriffsaufruf über einen Machine Learning-Arbeitsbereich ohne Verwendung einer Compute-Ressource auszuführen.

Diagramm, das den Logikflow beim Zugriff auf Daten zeigt.

Szenarien und Authentifizierungsoptionen

In dieser Tabelle sind die Identitäten aufgeführt, die für bestimmte Szenarien verwendet werden.

Konfiguration SDK lokal/Notebook-VM Job Datasetvorschau Datenspeicher durchsuchen
Anmeldeinformationen und Arbeitsbereichs-MSI Credential Credential Arbeitsbereichs-MSI Anmeldeinformationen (nur Kontoschlüssel und SAS (Shared Access Signature)-Token)
Keine Anmeldeinformationen und Arbeitsbereichs-MSI Compute-MSI/Benutzeridentität Compute-MSI/Benutzeridentität Arbeitsbereichs-MSI Benutzeridentität
Anmeldeinformationen und keine Arbeitsbereichs-MSI Credential Credential Anmeldeinformationen (nicht unterstützt für die Datasetvorschau im privaten Netzwerk) Anmeldeinformationen (nur Kontoschlüssel und SAS (Shared Access Signature)-Token)
Keine Anmeldeinformationen und keine Arbeitsbereichs-MSI Compute-MSI/Benutzeridentität Compute-MSI/Benutzeridentität Benutzeridentität Benutzeridentität

Für SDK V1 verwendet die Datenauthentifizierung in einem Auftrag immer Compute-MSI. Bei SDK V2 hängt die Datenauthentifizierung in einem Auftrag von der Auftragseinstellung ab. Dies kann eine Benutzeridentität oder eine Compute-MSI sein, basierend auf Ihrer Einstellung.

Tipp

Wenn Sie auf Daten von außerhalb von Machine Learning zugreifen, z. B. mithilfe von Azure Storage-Explorer, wird für den Zugriff wahrscheinlich die Benutzer-Identität verwendet. Lesen Sie die Dokumentation des von Ihnen verwendeten Tools oder Diensts, um bestimmte Informationen zu erhalten. Weitere Informationen dazu, wie Machine Learning mit Daten arbeitet, finden Sie unter Einrichten der Authentifizierung zwischen Azure Machine Learning und anderen Diensten.

Spezifische Anforderungen für ein virtuelles Netzwerk

Die folgenden Informationen helfen Ihnen beim Einrichten der Datenauthentifizierung für den Zugriff auf Daten hinter einem virtuellen Netzwerk aus einem Machine Learning-Arbeitsbereich.

Hinzufügen von Berechtigungen eines Speicherkontos zur verwalteten Identität des Machine Learning-Arbeitsbereichs

Wenn Sie ein Speicherkonto aus dem Studio zum Anzeigen der Datasetvorschau verwenden, müssen Sie Verwaltete Identität des Arbeitsbereichs für die Datenvorschau und die Profilerstellung in Azure Machine Learning Studio verwenden in der Datenspeichereinstellung aktivieren. Fügen Sie dann die folgenden Azure RBAC-Rollen des Speicherkontos zur verwalteten Identität des Arbeitsbereichs hinzu:

  • Leser von Blobdaten
  • Wenn das Speicherkonto einen privaten Endpunkt für die Verbindung mit dem virtuellen Netzwerk verwendet, müssen Sie der verwalteten Identität die Rolle Leser für den privaten Endpunkt des Speicherkontos zuweisen.

Weitere Informationen finden Sie unter Verwenden von Azure Machine Learning Studio in einem virtuellen Azure-Netzwerk.

In den folgenden Abschnitten erläutern die Einschränkungen bei der Verwendung eines Speicherkontos mit Ihrem Arbeitsbereich in einem virtuellen Netzwerk.

Sichere Kommunikation mit einem Speicherkonto

Um die Kommunikation zwischen Machine Learning und Speicherkonten zu schützen, konfigurieren Sie den Speicher so, dass der Zugriff auf vertrauenswürdige Azure-Dienste gewährt wird.

Azure Storage-Firewall

Wenn sich ein Speicherkonto hinter einem virtuellen Netzwerk befindet, kann die Speicherfirewall normalerweise verwendet werden, damit Ihr Client eine direkte Verbindung über das Internet herstellen kann. Wenn Sie jedoch Studio verwenden, stellt Ihr Client keine Verbindung mit dem Speicherkonto her. Die Machine Learning Service-Instanz, welche die Anforderung sendet, stellt die Verbindung mit dem Speicherkonto her. Die IP-Adresse des Diensts wird nicht dokumentiert und ändert sich häufig. Das Aktivieren der Speicherfirewall gibt dem Studio keinen Zugriff auf das Speicherkonto in einer virtuellen Netzwerkkonfiguration.

Azure Storage Endpunkttyp

Wenn der Arbeitsbereich einen privaten Endpunkt verwendet und sich das Speicherkonto auch im virtuellen Netzwerk befindet, gelten für die Verwendung von Studio zusätzliche Überprüfungsanforderungen:

  • Wenn das Speicherkonto einen Dienstendpunkt verwendet, müssen sich der private Endpunkt des Arbeitsbereichs und der Speicherdienstendpunkt im gleichen Subnetz des virtuellen Netzwerks befinden.
  • Wenn das Speicherkonto einen privaten Endpunkt verwendet, müssen sich der private Endpunkt des Arbeitsbereichs und derjenige des Speichers im gleichen virtuellen Netzwerk befinden. In diesem Fall können sie sich in unterschiedlichen Subnetzen befinden.

Azure Data Lake Storage Gen1

Wenn Sie Azure Data Lake Storage Gen1 als Datenspeicher verwenden, können Sie nur Zugriffssteuerungslisten im POSIX-Stil verwenden. Sie können der verwalteten Identität des Arbeitsbereichs wie jedem anderen Sicherheitsprinzipal Zugriff auf Ressourcen zuweisen. Weitere Informationen finden Sie unter Zugriffssteuerung in Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Beim Verwenden von Azure Data Lake Storage Gen2 als Datenspeicher können Sie den Datenzugriff in einem virtuellen Netzwerk sowohl per Azure RBAC als auch mit Zugriffssteuerungslisten (Access Control Lists, ACLs) im POSIX-Stil steuern.

  • So verwenden Sie Azure RBAC: Führen Sie die unter Datenspeicher: Azure Storage-Konto beschriebenen Schritte aus. Data Lake Storage Gen2 basiert auf Azure Storage, sodass die gleichen Schritte gelten, wenn Sie Azure RBAC verwenden.
  • Für die Verwendung von ACLs: Der verwalteten Identität des Arbeitsbereichs kann wie jedem anderen Sicherheitsprinzipal Zugriff zugewiesen werden. Weitere Informationen finden Sie unter Zugriffssteuerungslisten für Dateien und Verzeichnisse.

Nächste Schritte

Informationen zum Aktivieren von Studio in einem Netzwerk finden Sie unter Verwenden von Azure Machine Learning Studio in einem virtuellen Azure-Netzwerk.