Auf Englisch lesen Bearbeiten

Teilen über


Entwerfen einer sicheren Forschungsumgebung für regulierte Daten

Azure Data Science Virtual Machines
Azure Machine Learning
Azure Data Factory

In diesem Artikel wird eine sichere Forschungsumgebung beschrieben, in der Forscher auf vertrauliche Daten zugreifen können, die unter einem hohen Maß an Kontrolle und Schutz stehen. Dieser Artikel gilt für Organisationen, die die Einhaltung gesetzlicher Vorschriften oder anderer strenger Sicherheitsanforderungen einhalten müssen.

Aufbau

Ein Diagramm, das eine sichere Forschungsumgebung zeigt.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Der folgende Oder der Datenfluss entspricht dem obigen Diagramm:

  1. Datenbesitzer laden Datasets in ein öffentliches Blobspeicherkonto hoch. Sie verwenden von Microsoft verwaltete Schlüssel, um die Daten zu verschlüsseln.

  2. Azure Data Factory verwendet einen Trigger, der mit dem Kopieren des hochgeladenen Datasets an einen bestimmten Speicherort oder einen Importpfad in einem anderen Speicherkonto mit Sicherheitskontrollen beginnt. Sie können das Speicherkonto nur über einen privaten Endpunkt erreichen. Ein Dienstprinzipal mit eingeschränkten Berechtigungen kann auch auf das Konto zugreifen. Data Factory löscht die ursprüngliche Kopie, wodurch das Dataset unveränderlich wird.

  3. Forscher greifen über eine Streaminganwendung über Azure Virtual Desktop als privilegierte Sprungbox auf die sichere Umgebung zu.

  4. Das Dataset im sicheren Speicherkonto wird den virtuellen Data Science-Computern (VMs) angezeigt, die Sie in einer sicheren Netzwerkumgebung für Forschungsarbeiten bereitstellen. Ein Großteil der Datenvorbereitung erfolgt auf diesen VMs.

  5. Die sichere Umgebung verfügt über Azure Machine Learning und Azure Synapse Analytics, die über einen privaten Endpunkt auf das Dataset zugreifen können. Sie können diese Plattformen verwenden, um Machine Learning-Modelle zu trainieren, bereitzustellen, zu automatisieren und zu verwalten oder Azure Synapse Analytics zu verwenden. An diesem Punkt können Sie Modelle erstellen, die regulatorische Richtlinien erfüllen. Identifizieren Sie alle Modelldaten, indem Sie persönliche Informationen entfernen.

  6. Modelle oder nicht identifizierte Daten werden an einem separaten Speicherort im sicheren Speicher oder Exportpfad gespeichert. Wenn Sie dem Exportpfad neue Daten hinzufügen, lösen Sie eine Logik-App aus. In dieser Architektur befindet sich die Logik-App außerhalb der sicheren Umgebung, da keine Daten an die Logik-App gesendet werden. Die einzige Funktion besteht darin, Benachrichtigungen zu senden und den manuellen Genehmigungsprozess zu starten.

    Die Logik-App startet einen Genehmigungsprozess, indem eine Überprüfung der Daten angefordert wird, die exportiert werden sollen. Die manuellen Prüfer sorgen dafür, dass vertrauliche Daten nicht exportiert werden. Nach dem Überprüfungsprozess werden die Daten entweder genehmigt oder verweigert.

    Hinweis

    Wenn für die Exfiltration kein Genehmigungsschritt erforderlich ist, können Sie den Logik-App-Schritt weglassen.

  7. Wenn die anonymisierten Daten genehmigt sind, werden sie an die Data Factory-Instanz gesendet.

  8. Data Factory verschiebt die Daten in ein separates Containerkonto, damit externe Forscher auf ihre exportierten Daten und Modelle zugreifen können. Alternativ können Sie auch ein anderes Speicherkonto in einer Umgebung mit geringerer Sicherheit bereitstellen.

Komponenten

Diese Architektur besteht aus mehreren Azure-Diensten, die Ressourcen entsprechend Ihren Anforderungen skalieren. In den folgenden Abschnitten werden diese Dienste und ihre Rollen beschrieben. Links zur Produktdokumentation für die ersten Schritte mit diesen Diensten finden Sie unter Nächste Schritte.

Kernkomponenten der Workload

Hier folgen die Kernkomponenten, die Forschungsdaten verschieben und verarbeiten.

  • Azure Data Science-VMs sind virtuelle Computer, die Sie mit Tools für Datenanalysen und maschinelles Lernen konfigurieren. Verwenden Sie die Data Science-VM, wenn Sie bestimmte Pakete oder Tools benötigen, z. B. FABRIC oder SAS, die plattform as a Service (PaaS)-Umgebungen nicht unterstützen können. Wählen Sie für Sicherheit und Benutzerfreundlichkeit machine Learning und andere PaaS-Optionen aus, wenn sie unterstützt werden.

  • Machine Learning ist ein Dienst, den Sie zum Trainieren, Bereitstellen, Automatisieren und Verwalten von Machine Learning-Modellen verwenden können. Sie können sie auch verwenden, um die Zuordnung und Verwendung von Computerlern-Computeressourcen zu verwalten. Machine Learning ist das Tool der Wahl für Jupyter-Notizbücher für die Entwicklung.

  • Machine Learning Compute ist ein Cluster von Knoten, mit denen Sie maschinelles Lernen und KI-Modelle trainieren und testen können. Die Computeressourcen werden nach Bedarf basierend auf einer automatischen Skalierungsoption zugeordnet. Sie können Visual Studio Code (VS Code) als Streaminganwendung von Virtual Desktop bereitstellen und mit dem Machine Learning-Compute für eine alternative Entwicklungsumgebung verbinden.

  • Azure Blob Storage verfügt über zwei Instanzen. Die öffentliche Instanz speichert vorübergehend die Daten, die die Datenbesitzer hochladen. Die öffentliche Instanz speichert auch nicht identifizierte Daten, nachdem sie die Daten in einem separaten Container modelliert haben. Die zweite Instanz ist privat. Es empfängt die Schulungs- und Testdatensätze von Machine Learning, die von den Schulungsskripts verwendet werden. Speicher wird als virtuelles Laufwerk auf jedem Knoten eines Machine Learning-Computeclusters bereitgestellt.

  • Data Factory verschiebt Automatisch Daten zwischen Speicherkonten unterschiedlicher Sicherheitsstufen, um die Trennung von Aufgaben sicherzustellen.

  • Azure Synapse Analytics ist ein Analysetool für Big Data und Pipelines für die Datenintegration und das Extrahieren, Transformieren, Laden von Workloads. Azure Synapse Analytics ist auch ein bevorzugter Dienst zum Ausführen von Apache Spark-Workloads.

  • Virtual Desktop ist ein Dienst, den Sie als Sprungfeld verwenden können, um bei Bedarf Zugriff auf die Ressourcen in der sicheren Umgebung mit Streaminganwendungen und einem vollständigen Desktop zu erhalten. Alternativ können Sie Azure Bastion verwenden, aber Sie sollten ein klares Verständnis der Unterschiede bei der Sicherheitssteuerung zwischen den beiden Optionen haben. Virtual Desktop bietet einige Vorteile, darunter:

    • Die Möglichkeit, eine App wie VS Code zu streamen, um Notizbücher auf den Computerlern-Computeressourcen auszuführen.
    • Die Möglichkeit, Kopier-, Einfüge- und Bildschirmaufnahmen einzuschränken.
    • Unterstützung für die Microsoft Entra-Authentifizierung für VMs von Data Science.
  • Azure Logic Apps bietet automatisierte Workflows mit geringem Code, um die Trigger - und Freigabeabschnitte des manuellen Genehmigungsprozesses zu entwickeln.

Statusverwaltungskomponenten

Diese Komponenten überwachen kontinuierlich den Workloadstatus und dessen Umgebung. Ihr Zweck besteht darin, Risiken zu entdecken und zu mindern, sobald sie entdeckt werden.

  • Microsoft Defender für Cloud ist ein Dienst, den Sie verwenden können, um den gesamtsicherheitsstatus der Implementierung zu bewerten und einen Nachweismechanismus für die Einhaltung gesetzlicher Vorschriften bereitzustellen. Sie können Probleme frühzeitig erkennen, statt wenn Sie Audits oder Bewertungen durchführen. Verwenden Sie Features, um den Fortschritt wie die Sicherheitsbewertung und die Compliancebewertung nachzuverfolgen. Diese Bewertungen sind wichtige Tools, mit denen die Compliance überprüft werden kann.

  • Microsoft Sentinel ist eine Sicherheitsinformations- und Ereignisverwaltungslösung und eine Sicherheits-Orchestrierung, Automatisierungs- und Reaktionslösung. Sie können Protokolle und Warnungen aus verschiedenen Quellen zentral anzeigen und die Vorteile der fortschrittlichen KI und Sicherheitsanalyse nutzen, um Bedrohungen zu erkennen, zu verfolgen, zu verhindern und darauf zu reagieren. Diese Funktion bietet wertvolle Sicherheitseinblicke, um sicherzustellen, dass Datenverkehr und alle aktivitäten, die mit dem Arbeitsbereich verknüpft sind, Ihren Erwartungen entsprechen.

  • Azure Monitor ermöglicht die Gewinnung von Einblicken für Ihre gesamte Umgebung. Zeigen Sie Metriken, Aktivitätsprotokolle und Diagnoseprotokolle von den meisten Ihrer Azure-Ressourcen ohne zusätzliche Konfiguration an. Verwaltungstools, z. B. die in Defender für Cloud, pushen auch Protokolldaten an Azure Monitor.

Governance-Komponenten

  • Azure Policy unterstützt Sie bei der Durchsetzung von Organisationsstandards und der Bewertung der Compliance im großen Stil.

Alternativen

  • Diese Lösung verwendet Data Factory zum Verschieben von Daten in das öffentliche Speicherkonto in einem separaten Container, um externen Forschern den Zugriff auf ihre exportierten Daten und Modelle zu ermöglichen. Alternativ können Sie ein anderes Speicherkonto in einer niedrigeren Sicherheitsumgebung bereitstellen.
  • Diese Lösung verwendet Virtual Desktop als Sprungfeld, um Zugriff auf die Ressourcen in der sicheren Umgebung mit Streaminganwendungen und einem vollständigen Desktop zu erhalten. Alternativ können Sie Azure Bastion verwenden, aber Virtual Desktop bietet einige Vorteile. Diese Vorteile umfassen die Möglichkeit, eine App zu streamen, Kopieren/Einfügen und Bildschirmaufnahmen einzuschränken und die Microsoft Entra-Authentifizierung zu unterstützen. Sie können auch die Konfiguration eines Point-to-Site-VPN für lokale Offlineschulungen in Betracht ziehen. Dieses VPN trägt auch dazu bei, die Kosten für mehrere VMs für Arbeitsstationen zu reduzieren.
  • Um ruhende Daten zu sichern, verschlüsselt diese Lösung alle Azure Storage-Konten mit von Microsoft verwalteten Schlüsseln mithilfe einer starken Kryptografie. Alternativ können Sie vom Kunden verwaltete Schlüssel verwenden. Sie müssen die Schlüssel in einem verwalteten Schlüsselspeicher speichern.

Szenariodetails

Dieses Szenario kombiniert regulierte und private Daten, auf die Einzelpersonen zugreifen müssen, die jedoch nicht gespeichert oder übertragen werden dürfen.

  • Datenwissenschaftler außerhalb Ihrer Organisation benötigen vollständigen Zugriff auf die Daten, um ihre Modelle zu trainieren und zu exportieren, ohne dass proprietäre oder geschützte Daten die Umgebung verlassen.
  • Sie müssen den Zugriff isolieren. Auch die Datenbesitzer und Verwahrer dürfen nach dem Hochladen in die Umgebung nicht mehr auf die Daten zugreifen.
  • Sie müssen einen Überwachungspfad für alle Exporte benötigen, die aus der Umgebung übertragen werden, um sicherzustellen, dass nur die Modelle exportiert wurden.

Mögliche Anwendungsfälle

Diese Architektur wurde ursprünglich für Forschungseinrichtungen im Hochschulbereich erstellt, die die Anforderungen des Health Insurance Portability and Accountability Act (HIPAA) erfüllen müssen. Sie können dieses Design jedoch in jeder Branche verwenden, die die Isolierung von Daten für Forschungszwecke erfordert. Beispiele hierfür sind:

  • Branchen, die regulierte Daten gemäß den Anforderungen des National Institute of Standards and Technology (NIST) verarbeiten.
  • Medizinische Zentren, die mit internen oder externen Forschern zusammenarbeiten.
  • Banken- und Finanzbranchen.

Indem Sie den Anweisungen in diesem Artikel folgen, können Sie die vollständige Kontrolle über Ihre Forschungsdaten behalten, aufgabentrennungen haben und strenge gesetzliche Compliance-Standards erfüllen. Dieser Ansatz erleichtert auch die Zusammenarbeit zwischen Schlüsselrollen in einer forschungsorientierten Umgebung, z. B. Datenbesitzer, Forscher und Genehmigende.

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Zuverlässigkeit

Zuverlässigkeit stellt sicher, dass Ihre Anwendung Ihre Verpflichtungen gegenüber den Kunden erfüllen kann. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Zuverlässigkeit.

Bei den meisten Forschungslösungen handelt es sich um temporäre Workloads, die nicht über einen längeren Zeitraum hinweg verfügbar sein müssen. Diese Architektur ist als Bereitstellung in einer einzelnen Region mit Verfügbarkeitszonen konzipiert. Wenn die Geschäftsanforderungen eine höhere Verfügbarkeit erfordern, replizieren Sie diese Architektur in mehreren Regionen. Sie benötigen weitere Komponenten, z. B. einen globalen Lastenausgleich und Distributor, um den Datenverkehr an alle diese Regionen weiterzuleiten. Verwenden Sie als Teil Ihrer Wiederherstellungsstrategie den Azure VM Image Builder, um eine Kopie des angepassten Basisimages zu erfassen und zu erstellen.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Sicherheit.

Das Hauptziel dieser Architektur ist es, eine sichere und vertrauenswürdige Forschungsumgebung zu schaffen, die die Exfiltration von Daten aus dem sicheren Bereich streng begrenzt.

Netzwerksicherheit

Bereitstellen von Azure-Ressourcen, die zum Speichern, Testen und Trainieren von Forschungsdatensätzen in einer sicheren Umgebung verwendet werden. Diese Umgebung ist ein virtuelles Azure-Netzwerk mit Netzwerksicherheitsgruppenregeln, um den Zugriff einzuschränken. Diese Regeln gelten für:

  • Eingehender und ausgehender Zugriff auf das öffentliche Internet und innerhalb des virtuellen Netzwerks.

  • Zugriff auf und von bestimmten Diensten und Ports. Diese Architektur blockiert beispielsweise alle Portbereiche, mit Ausnahme der Portbereiche, die für Azure-Dienste erforderlich sind, z. B. Azure Monitor. Eine vollständige Liste der Diensttags und der entsprechenden Dienste finden Sie unter Tags für virtuelle Netzwerke.

    Der Zugriff über das virtuelle Netzwerk mit Virtual Desktop ist auf genehmigte Zugriffsmethoden für bestimmte Ports beschränkt, aber der gesamte andere Datenverkehr wird verweigert. Im Vergleich zu dieser Umgebung ist das andere virtuelle Netzwerk mit Virtual Desktop relativ offen.

Der Hauptblobspeicher in der sicheren Umgebung hat keine Verbindung mit dem öffentlichen Internet. Sie können nur innerhalb des virtuellen Netzwerks über private Endpunktverbindungen und Speicherfirewalls darauf zugreifen. Verwenden Sie sie, um die Netzwerke einzuschränken, von denen Clients eine Verbindung mit Dateifreigaben in Azure Files herstellen können.

Diese Architektur verwendet die anmeldeinformationsbasierte Authentifizierung für den Hauptdatenspeicher, der sich in der sicheren Umgebung befindet. In diesem Fall werden die Verbindungsinformationen, z. B. die Abonnement-ID und die Tokenautorisierung, in einem Schlüsseltresor gespeichert. Eine weitere Möglichkeit besteht darin, identitätsbasierten Datenzugriff zu erstellen, bei dem Sie Ihr Azure-Konto verwenden, um zu bestätigen, ob Sie Zugriff auf Speicher haben. Im Szenario mit identitätsbasiertem Datenzugriff werden keine Anmeldeinformationen für die Authentifizierung gespeichert. Weitere Informationen finden Sie unter Erstellen von Datenspeichern.

Der Computecluster kann nur innerhalb des virtuellen Netzwerks mithilfe des Azure Private Link-Ökosystems und des Diensts oder privater Endpunkte kommunizieren, anstatt öffentliche IPs für die Kommunikation zu verwenden. Stellen Sie sicher, dass Sie keine öffentliche IP aktivieren. Weitere Informationen zu diesem Feature, das sich derzeit in der Vorschau befindet, finden Sie unter Compute instance/cluster oder serverless compute with no public IP.

Die sichere Umgebung verwendet Machine Learning-Compute, um über einen privaten Endpunkt auf das Dataset zuzugreifen. Sie können azure Firewall auch so konfigurieren, dass der Zugriff auf machine Learning-Compute gesteuert wird, der sich in einem Maschinellen Lernarbeitsbereich befindet. Verwenden Sie Azure Firewall, um ausgehenden Zugriff von Machine Learning Compute zu steuern. Weitere Informationen finden Sie unter Konfiguration des ein- und ausgehenden Netzwerkdatenverkehrs.

Informationen zu einer der Möglichkeiten, wie Sie eine Machine Learning-Umgebung sichern können, finden Sie im Blogbeitrag Secure Machine Learning Service environment.

Für Azure-Dienste, die Sie nicht effektiv mit privaten Endpunkten konfigurieren können oder um zustandsbehaftete Paketüberprüfungen bereitzustellen, erwägen Sie die Verwendung von Azure Firewall oder einer virtuellen Nicht-Microsoft-Netzwerk-Appliance.

Identitätsverwaltung

Greifen Sie über rollenbasierte Zugriffssteuerungen auf Blobspeicher in Azure zu.

Virtual Desktop unterstützt die Microsoft Entra-Authentifizierung für VMs von Data Science.

Data Factory verwendet die verwaltete Identität für den Zugriff auf Daten aus dem Blobspeicher. Data Science-VMs verwenden auch verwaltete Identität für Wartungsaufgaben.

Datensicherheit

Um ruhende Daten zu sichern, werden alle Speicherkonten mit von Microsoft verwalteten Schlüsseln verschlüsselt, die starke Kryptografie verwenden.

Alternativ können Sie vom Kunden verwaltete Schlüssel verwenden. Sie müssen die Schlüssel in einem verwalteten Schlüsselspeicher speichern. In dieser Architektur stellen Sie Azure Key Vault in der sicheren Umgebung bereit, um geheime Schlüssel wie Verschlüsselungsschlüssel und Zertifikate zu speichern. Ressourcen im sicheren virtuellen Netzwerk greifen über einen privaten Endpunkt auf Key Vault zu.

Governanceüberlegungen

Aktivieren Sie Azure Policy, um Standards zu erzwingen und automatisierte Wartungsmaßnahmen bereitzustellen, um Ressourcen in Übereinstimmung mit bestimmten Richtlinien zu bringen. Sie können die Richtlinien auf ein Projektabonnement oder auf Verwaltungsgruppenebene anwenden, entweder als einzelne Richtlinie oder als Teil einer regulatorischen Initiative.

In dieser Architektur gilt die Azure-Computerkonfiguration beispielsweise für alle VMs im Gültigkeitsbereich. Die Richtlinie kann Betriebssysteme und Computerkonfigurationen für die VMs der Data Science überwachen.

VM-Image

Die virtuellen Data Science-Computer führen benutzerdefinierte Basisimages aus. Verwenden Sie Zum Erstellen des Basisimages Technologien wie VM Image Builder. Mithilfe des VM Image Builders können Sie ein wiederholbares Image erstellen, das Sie bei Bedarf bereitstellen können.

Das Basisimage benötigt möglicherweise Updates, z. B. zusätzliche Binärdateien. Sie sollten diese Binärdateien in den öffentlichen BLOB-Speicher hochladen. Sie sollten in der sicheren Umgebung ablaufen, ähnlich wie datenbesitzer die Datasets hochladen.

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Kostenoptimierung.

Die Kosten von Data Science-VMs hängen von der Wahl der zugrunde liegenden VM-Serie ab. Da die Arbeitsauslastung temporär ist, empfehlen wir den Verbrauchsplan für die Logik-App-Ressource. Verwenden Sie den Azure-Preisrechner , um Die Kosten basierend auf der geschätzten Größenanpassung der benötigten Ressourcen zu schätzen. Stellen Sie sicher, dass Sie die Umgebung herunterfahren, wenn sie nicht verwendet wird, um Kosten zu optimieren und die Sicherheit zu verbessern.

Effiziente Leistung

Die Leistungseffizienz ist die Fähigkeit Ihrer Workload, auf effiziente Weise eine den Anforderungen der Benutzer entsprechende Skalierung auszuführen. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Leistungseffizienz.

Die Größe und art der Datenwissenschaftlichen VMs sollten für den Arbeitsstil geeignet sein, den sie ausführen. Diese Architektur soll ein einzelnes Forschungsprojekt unterstützen. Sie erreichen Skalierbarkeit, indem Sie die Größe und den Typ der virtuellen Computer anpassen und Rechenressourcen auswählen, die machine Learning zur Verfügung stehen.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte