Teilen über


Datenverwaltung

Erfahren Sie, wie Sie den Datenzugriff verwalten und wie Sie in Azure Machine Learning authentifizieren.

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

Wichtig

Dieser Artikel richtet sich an Azure-Administrator*innen, die die für eine Azure Machine Learning-Lösung erforderliche Infrastruktur erstellen möchten.

Anmeldeinformationsbasierte Datenauthentifizierung

Im Allgemeinen umfasst die anmeldeinformationsbasierte Datenauthentifizierung die folgenden Überprüfungen:

  • Überprüfen Sie, ob dem Benutzer, der auf Daten aus dem auf Anmeldeinformationen basierenden Datenspeicher zugreift, eine Rolle mit rollenbasierter Zugriffssteuerung (RBAC) zugewiesen wurde, die Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action enthält.

    • Diese Berechtigung ist erforderlich, um Anmeldeinformationen aus dem Datenspeicher für den Benutzer abzurufen.

    • Integrierte Rollen, die diese Berechtigung bereits enthalten:

    • Sie müssen wissen, welcher bestimmter Benutzer auf die Daten zugreifen möchte. Ein bestimmter Benutzer kann ein echter Benutzer mit einer Benutzeridentität sein. Es kann sich auch um einen Computer mit verwalteter Computeidentität (MSI) sein. Weitere Informationen finden Sie im Abschnitt Szenarios und Authentifizierungsoptionen, um die Identität zu ermitteln, die die hinzugefügte Berechtigung benötigt.

  • Hat die gespeicherte Anmeldeinformation (Dienstprinzipal, Kontoschlüssel oder SAS (Shared Access Signature)-Token) Zugriff auf die Datenressource?

Identitätsbasierte Datenauthentifizierung

Im Allgemeinen umfasst die identitätsbasierte Datenauthentifizierung die folgenden Prüfungen:

  • Welche Benutzer*innen möchten auf die Ressourcen zugreifen?
    • Je nach Kontext sind unterschiedliche Authentifizierungstypen verfügbar, wenn auf die Daten zugegriffen wird. Beispiel:
      • Benutzeridentität
      • Verwaltete Compute-Identität
      • Vom Arbeitsbereich verwaltete Identität
    • Aufträge, einschließlich der Option Generate Profile für Datasets, werden in einer Compute-Ressource in Ihrem Abonnement ausgeführt und greifen von diesem Speicherort aus auf die Daten zu. Die verwaltete Computeidentität benötigt die Berechtigung für den Zugriff auf die Speicherressource und nicht die Identität des Benutzers, der den Auftrag übermittelt hat.
    • Für die Authentifizierung auf der Grundlage einer Benutzeridentität müssen Sie wissen, welche bestimmten Benutzer*innen versucht haben, auf die Speicherressource zuzugreifen. Weitere Informationen zur Benutzerauthentifizierung finden Sie unter Authentifizierung für Azure Machine Learning. Weitere Informationen zur Authentifizierung auf Dienstebene finden Sie unter Authentifizierung zwischen Azure Machine Learning und anderen Diensten.
  • Verfügt dieser Benutzer über Leseberechtigungen für die Ressource?
  • Verfügt dieser Benutzer über Schreibberechtigungen für die Ressource?

Weitere allgemeine Überprüfungen auf Authentifizierung

  • Wer oder was genau wird auf die Ressource zugreifen?
    • Benutzer: Befindet sich die Client-IP-Adresse im virtuellen Netzwerk-/Subnetzbereich?
    • Arbeitsbereich: Ist der Arbeitsbereich öffentlich oder verfügt er über einen privaten Endpunkt in einem virtuellen Netzwerk/Subnetz?
    • Speicher: Lässt der Speicher öffentlichen Zugriff zu, oder schränkt er den Zugriff über einen Dienstendpunkt oder einen privaten Endpunkt ein?
  • Was ist der geplante Vorgang?
    • Azure Machine Learning verarbeitet
      • Erstellen
      • Lesen
      • Aktualisieren
      • Delete-Vorgänge (CRUD) in einem Datenspeicher/Dataset.
    • Archivvorgänge für Datenressourcen in Azure Machine Learning Studio erfordern diesen RBAC-Vorgang: Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
    • Datenzugriffsaufrufe (z. B. Vorschau oder Schema) wechseln zum zugrunde liegenden Speicher und benötigen zusätzliche Berechtigungen.
  • Wird dieser Vorgang in den Computeressourcen in einem Azure-Abonnement oder in den in einem Microsoft-Abonnement gehosteten Ressourcen ausgeführt?
    • Alle Aufrufe von Dataset- und Datenspeicherdiensten (mit Ausnahme der Option Generate Profile) verwenden Ressourcen, die in einem Microsoft-Abonnement gehostet werden, um die Vorgänge auszuführen.
    • Aufträge, einschließlich der Option Generate Profile für Datasets, werden in einer Computeressource in Ihrem Abonnement ausgeführt und greifen von diesem Speicherort aus auf die Daten zu. Die Compute-Identität benötigt die Berechtigung für die Speicherressource und nicht die Identität des Benutzers, der den Auftrag übermittelt hat.

Das folgende Diagramm zeigt den allgemeinen Ablauf eines Datenzugriffsaufrufs. Hier versucht ein Benutzer, einen Datenzugriffsaufruf über einen Machine Learning-Arbeitsbereich ohne Verwendung einer Computeressource auszuführen.

Diagramm, das den Logikflow beim Zugriff auf Daten zeigt.

Szenarien und Authentifizierungsoptionen

In dieser Tabelle sind die Identitäten aufgeführt, die für bestimmte Szenarien verwendet werden:

Konfiguration SDK lokal/Notebook-VM Job Datasetvorschau Datenspeicher durchsuchen
Anmeldeinformationen und Arbeitsbereichs-MSI Credential Credential Arbeitsbereichs-MSI Anmeldeinformationen (nur Kontoschlüssel und SAS (Shared Access Signature)-Token)
Keine Anmeldeinformationen und Arbeitsbereichs-MSI Compute-MSI/Benutzeridentität Compute-MSI/Benutzeridentität Arbeitsbereichs-MSI Benutzeridentität
Anmeldeinformationen und keine Arbeitsbereichs-MSI Credential Credential Anmeldeinformationen (nicht unterstützt für die Datasetvorschau im privaten Netzwerk) Anmeldeinformationen (nur Kontoschlüssel und SAS (Shared Access Signature)-Token)
Keine Anmeldeinformationen und keine Arbeitsbereichs-MSI Compute-MSI/Benutzeridentität Compute-MSI/Benutzeridentität Benutzeridentität Benutzeridentität

Für SDK V1 verwendet die Datenauthentifizierung in einem Auftrag immer Compute-MSI. Bei SDK V2 hängt die Datenauthentifizierung in einem Auftrag von Ihrer Auftragseinstellung ab. Dies kann eine Benutzeridentität oder eine Compute-MSI sein, basierend auf der Auftragseinstellung.

Tipp

Wenn Sie auf Daten von außerhalb von Machine Learning zugreifen, z. B. mithilfe von Azure Storage-Explorer, wird für den Zugriff wahrscheinlich die Benutzeridentität verwendet. Lesen Sie die Dokumentation des Tools oder Diensts, das bzw. den Sie verwenden möchten, um bestimmte Informationen zu erhalten. Weitere Informationen dazu, wie Machine Learning mit Daten arbeitet, finden Sie unter Einrichten der Authentifizierung zwischen Azure Machine Learning und anderen Diensten.

Spezifische Anforderungen für ein virtuelles Netzwerk

Diese Informationen helfen Ihnen beim Einrichten der Datenauthentifizierung aus einem Machine Learning-Arbeitsbereich, um auf Daten hinter einem virtuellen Netzwerk zuzugreifen.

Hinzufügen von Berechtigungen eines Speicherkontos zur verwalteten Identität des Machine Learning-Arbeitsbereichs

Wenn Sie ein Speicherkonto aus dem Studio zum Anzeigen der Datasetvorschau verwenden, müssen Sie Verwaltete Identität des Arbeitsbereichs für die Datenvorschau und die Profilerstellung in Azure Machine Learning Studio verwenden in der Datenspeichereinstellung aktivieren. Fügen Sie dann diese Azure RBAC-Rollen für das Speicherkonto zur verwalteten Identität des Arbeitsbereichs hinzu:

  • Leser von Blobdaten
  • Wenn das Speicherkonto einen privaten Endpunkt für die Verbindung mit dem virtuellen Netzwerk verwendet, müssen Sie der verwalteten Identität die Rolle Leser für den privaten Endpunkt des Speicherkontos zuweisen.

Weitere Informationen finden Sie unter Verwenden von Azure Machine Learning Studio in einem virtuellen Azure-Netzwerk.

In diesen Abschnitten werden die Einschränkungen bei der Verwendung eines Speicherkontos mit Ihrem Arbeitsbereich in einem virtuellen Netzwerk erläutert.

Sichere Kommunikation mit einem Speicherkonto

Um die Kommunikation zwischen Machine Learning und Speicherkonten zu schützen, konfigurieren Sie den Speicher so, dass der Zugriff auf vertrauenswürdige Azure-Dienste gewährt wird.

Azure Storage-Firewall

Wenn sich ein Speicherkonto hinter einem virtuellen Netzwerk befindet, kann die Speicherfirewall normalerweise zulassen, dass Ihr Client eine direkte Verbindung über das Internet herstellt. Wenn Sie jedoch Studio verwenden, stellt Ihr Client keine Verbindung mit dem Speicherkonto her. Die Machine Learning Service-Instanz, welche die Anforderung sendet, stellt die Verbindung mit dem Speicherkonto her. Die IP-Adresse des Diensts wird nicht dokumentiert und ändert sich häufig. Das Aktivieren der Speicherfirewall erteilt dem Studio keinen Zugriff auf das Speicherkonto in einer virtuellen Netzwerkkonfiguration.

Azure Storage Endpunkttyp

Wenn der Arbeitsbereich einen privaten Endpunkt verwendet und sich das Speicherkonto ebenfalls im virtuellen Netzwerk befindet, gelten für die Verwendung von Studio zusätzliche Überprüfungsanforderungen.

  • Wenn das Speicherkonto einen Dienstendpunkt verwendet, müssen sich der private Endpunkt des Arbeitsbereichs und der Speicherdienstendpunkt im gleichen Subnetz des virtuellen Netzwerks befinden.
  • Wenn das Speicherkonto einen privaten Endpunkt verwendet, müssen sich der private Endpunkt des Arbeitsbereichs und derjenige des Speichers im gleichen virtuellen Netzwerk befinden. In diesem Fall können sie sich in unterschiedlichen Subnetzen befinden.

Azure Data Lake Storage Gen1

Wenn Sie Azure Data Lake Storage Gen1 als Datenspeicher verwenden, können Sie nur Zugriffssteuerungslisten im POSIX-Stil verwenden. Sie können der verwalteten Identität des Arbeitsbereichs wie jedem anderen Sicherheitsprinzipal Zugriff auf Ressourcen zuweisen. Weitere Informationen finden Sie unter Zugriffssteuerung in Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Beim Verwenden von Azure Data Lake Storage Gen2 als Datenspeicher können Sie den Datenzugriff in einem virtuellen Netzwerk sowohl per Azure RBAC als auch mit Zugriffssteuerungslisten (Access Control Lists, ACLs) im POSIX-Stil steuern.

  • So verwenden Sie Azure RBAC: Führen Sie die unter Datenspeicher: Azure Storage-Konto beschriebenen Schritte aus. Data Lake Storage Gen2 basiert auf Azure Storage, sodass die gleichen Schritte gelten, wenn Sie Azure RBAC verwenden.
  • Für die Verwendung von ACLs: Der verwalteten Identität des Arbeitsbereichs kann wie jedem anderen Sicherheitsprinzipal Zugriff zugewiesen werden. Weitere Informationen finden Sie unter Zugriffssteuerungslisten für Dateien und Verzeichnisse.

Nächste Schritte

Informationen zum Aktivieren von Studio in einem Netzwerk finden Sie unter Verwenden von Azure Machine Learning Studio in einem virtuellen Azure-Netzwerk.