Datenexfiltrationsschutzarchitektur

Diese Seite ist eine Feature-für-Feature-Referenzarchitektur für den Schutz vor Datenexfiltration auf Netzwerkebene auf Azure. In jedem Abschnitt wird ein Steuerelement beschrieben, z. B. Identität, Unity Catalog Governance, Arbeitsbereichseinschränkungen, Überwachung und cloudspezifische Netzwerkisolation sowie Links zu seinem Implementierungsleitfaden. Die Konzepte und Sicherheitsebenenprioritäten hinter diesen Steuerelementen finden Sie unter Datenexfiltrationsschutz.

  • Um den vollständigen Satz von Steuerelementen als einzelnes Bündel bereitzustellen, verwenden Sie das Azure Databricks Security Reference Architecture Terraform-Modul, das die Isolated Environment Architektur end-to-End implementiert. Weitere Informationen finden Sie im Modul Azure Security Reference Architecture Terraform.
  • Verwenden Sie die nachstehende Anleitung, um Steuerelemente einzeln zu konfigurieren.

Identität und Zugriffssteuerung

Identitätsbasierte Steuerelemente sind die erste Verteidigungslinie gegen Datenexfiltration. Ohne starke Authentifizierung und vertrauenswürdigen Zugriff untergräbt schwache Identität Steuerelemente auf Netzwerkebene.

Symbol Einheitliche Anmeldung mit SSO

Wenden Sie einmaliges Anmelden (Single Sign-On, SSO) für alle Arbeitsbereiche im Azure Databricks-Konto mithilfe der einheitlichen Anmeldung an. Dadurch wird sichergestellt, dass Benutzer sich über Ihren Unternehmensidentitätsanbieter authentifizieren, anstatt persönliche Konten oder Nicht-SSO-Methoden zu verwenden.

Aktivieren Sie die mehrstufige Authentifizierung (Multifactor Authentication, MFA) innerhalb Ihres Identitätsanbieters für eine zusätzliche Überprüfungsebene.

Siehe Authentifizierung und Zugriffssteuerung.

Benutzergruppensymbol. Automatisierte Identitätsverwaltung

Implementieren Sie die SCIM-Bereitstellung, um die Verwaltung des Benutzerlebenszyklus zu automatisieren. Dadurch wird sichergestellt, dass ehemalige Mitarbeiter automatisch deaktiviert werden und nach ihrem Ausscheiden nicht mehr auf Arbeitsbereiche zugreifen können.

Siehe Synchronisieren von Benutzern und Gruppen aus Microsoft Entra ID mit SCIM.

Globussymbol. Netzwerkzugriffssteuerungen

Einschränken des Arbeitsbereichs- und Kontokonsolenzugriffs auf vertrauenswürdige Netzwerke:

Data-Governance-Kontrollen

Netzwerkkontrollen verhindern nicht autorisierte ausgehende Pfade, während Datengovernance-Kontrollen sicherstellen, dass auch autorisierte Compute-Ressourcen nur auf freigegebene Datenziele zugreifen können. Wenden Sie diese Steuerelemente unabhängig davon an, welche Netzwerksicherheitsarchitektur Sie bereitstellen.

Schlüsselsymbol. Standardzugriffssteuerung

Verwenden Sie Unity-Katalogberechtigungen, um einzuschränken, wer jeden Katalog, jedes Schema, jede Tabelle und jedes Volume lesen, schreiben oder ändern kann. Erteilen Sie die mindestberechtigungen, die für jede Rolle und Gruppe erforderlich sind.

Berechtigungen werden hierarchisch vererbt: Eine Berechtigung für einen Katalog gilt für alle darin enthaltenen Schemata und Tabellen. Verwenden Sie dies, um allgemeine Standardwerte zu erzwingen und dann den Zugriff auf niedrigere Ebenen für vertrauliche Daten einzuschränken.

Weitere Informationen finden Sie unter Verwalten von Berechtigungen in Unity Catalog.

Tagsymbol. Attributbasierte Zugriffssteuerung (ABAC)

ABAC steuert den Datenzugriff basierend auf Tags, die an Datenobjekte angefügt sind, nicht nur die Objektidentität. Verwenden Sie ABAC, um Richtlinien wie „Benutzer können nur mit pii=false gekennzeichnete Tabellen abfragen“ oder „Benutzer in der EU-Gruppe können keine mit region=US gekennzeichneten Tabellen lesen“ durchzusetzen.

ABAC skaliert in großen Umgebungen, in denen Tagging-Konventionen bereits etabliert sind, besser als GRANTs pro Objekt. Es kombiniert auch gut mit Zeilenfiltern und Spaltenmasken (unten).

Siehe Attributbasierte Zugriffssteuerung im Unity-Katalog.

Filter-Symbol. Zeilenfilter und Spaltenmasken

Einschränken, was Benutzer in einer Tabelle sehen:

  • Zeilenfilter: Wenden Sie eine SQL-Funktion an, die bestimmt, welche Zeilen ein Benutzer abfragen kann. Beschränken Sie beispielsweise eine Vertriebstabelle so, dass jeder Regionalmanager nur Zeilen für seine Region sieht.
  • Spaltenmaskierung: Wenden Sie eine SQL-Funktion an, die den Wert einer Spalte ändert, bevor er dem Benutzer zurückgegeben wird. Maskieren Sie z. B. Kreditkartennummern bis auf XXXX-XXXX-XXXX-1234 für Benutzer außerhalb des Finanzbereichs.

Zeilenfilter und Spaltenmasken werden zur Laufzeit der Abfrage ausgewertet, sodass Benutzer diese mit SELECT * nicht umgehen können.

Siehe Zeilenfilter und Spaltenmasken.

Symbol Administrative Einschränkungen des Unity-Katalogs

Beschränken Sie die Erstellung von Datenzugriffssicherheiten nur auf Administratoren:

Erteilen Sie Benutzern die Berechtigung, genehmigte sicherbare Objekte zu verwenden, anstatt neue zu erstellen. Dadurch wird verhindert, dass Benutzer Compute auf nicht vertrauenswürdigen Speicher oder Endpunkte ausrichten.

Katalog-Zahnradsymbol. Arbeitsbereichsbindungen für Kataloge

Binden Sie Unity-Katalogkataloge an bestimmte Arbeitsbereiche, um den umgebungsübergreifenden Datenzugriff zu verhindern. Verhindern Sie beispielsweise, dass Entwicklungsarbeitsbereiche Produktionsdaten lesen.

Siehe Arbeitsbereich-Katalogbindung.

Datenbanksymbol. Speicherkontorichtlinien

Implementieren Sie Firewalls oder Bucketrichtlinien für Speicherkonten, um Datenverkehr nur von genehmigten Quellzielen zu akzeptieren:

  • Konfigurieren Sie Azure Storage Firewalls, um den Zugriff nur von genehmigten VNets, privaten Endpunkten oder Dienstendpunkten zuzulassen.
  • Verwenden Sie verwaltete Identitäten mit Rollenzuweisungen mit geringsten Berechtigungen.

Arbeitsbereichseinschränkungen

Die Einstellungen des Arbeitsbereichsadministrators steuern Pfade für Daten-Downloads und -Exporte über die Azure Databricks-Benutzeroberfläche. Deaktivieren Sie diese Einstellungen, um zu verhindern, dass Benutzer Daten über die Arbeitsbereichsoberfläche extrahieren.

Setting Risiko verringert
Herunterladen von Notizbuchergebnissen deaktivieren Benutzer, die Abfrageergebnisse auf lokale Computer herunterladen
Herunterladen von Volumedateien deaktivieren Benutzer, die Volume-Dateien auf lokale Rechner herunterladen
Deaktivieren des Notizbuch- und Dateiexports Benutzer, die Notizbücher oder Dateien aus dem Arbeitsbereich exportieren
Herunterladen von SQL-Ergebnissen deaktivieren Benutzer, die SQL-Abfrageergebnisse herunterladen
MLflow run artifact download deaktivieren Benutzer, die Artefakte von MLflow-Experimenten herunterladen
Zwischenablage der Ergebnistabelle deaktivieren Benutzer, die tabellarische Daten in die Zwischenablage kopieren

Konfigurieren Sie diese Einstellungen in der Arbeitsbereich-Verwaltungskonsole unter den Sicherheitseinstellungen. Siehe "Arbeitsbereich verwalten".

Überwachung und Erkennung

Präventive Steuerelemente verringern das Risiko der Datenexfiltration, aber die Überwachung erkennt, wann Steuerelemente fehlschlagen oder wenn Angreifer sie umgehen.

Symbol Systemtabellen für überwachungsüberwachung

Verwenden Sie Azure Databricks Kosten mithilfe von Systemtabellen überwachen, um Datenzugriffsmuster zu überwachen. In der Referenz zur Überwachungsprotokollsystemtabelle werden Arbeitsbereichsereignisse erfasst, einschließlich:

  • Benutzerauthentifizierungs- und Zugriffsversuche.
  • Datenlese- und Schreibvorgänge.
  • Administrative Konfigurationsänderungen.
  • Verwendung von Anmeldeinformationen und Zugriff auf externe Speicherorte.

Richten Sie Warnungen für verdächtige Aktivitäten ein, z. B. ungewöhnliche Datenvolumes, Zugriff von unerwarteten Speicherorten oder Versuche, auf nicht autorisierte Ressourcen zuzugreifen.

Cloudsymbol. Cloudeigene Protokollintegration

Cloud-spezifische Protokolle erfassen, um die Azure Databricks-Systemtabellen zu ergänzen:

  • Konfigurieren Sie Azure Monitor und das Aktivitätsprotokoll, um Speicherzugriffsereignisse, verwaltete Identitätsnutzung und Netzwerkflussprotokolle zu erfassen.

Korrelieren Sie cloudeigene Protokolle mit Azure Databricks Überwachungsprotokollen, um vollständige Einblicke in die Datenbewegung in Ihrer Umgebung zu bieten.

Azure-Architektur

Die Azure-Architektur verwendet VNet-Einfügung, Private Link und Azure Firewall, um einen sicheren Netzwerkperimeter um Azure Databricks Workloads zu erstellen.

Voraussetzungen

Bestandteil Einzelheiten
Virtuelles Netzwerk Kundenseitig verwaltetes VNet für die Bereitstellung der Azure Databricks-Datenebene mithilfe von Bereitstellen von Azure Databricks in Ihrem virtuellen Azure-Netzwerk (VNet-Einschleusung).
Subnetze Drei Subnetze: Host (öffentlich), Container (privat) und privates Endpunktsubnetz.
Firewall oder NVA Virtuelle Netzwerk-Appliance (die Azure Firewall oder eine Lösung von Drittanbietern) zur Prüfung des ausgehenden Datenverkehrs und zur Durchsetzung von Richtlinien.
Privates DNS Zonen DNS-Auflösung für private Endpunkte innerhalb des virtuellen Netzwerks.
Azure Key Vault (ein Dienst zur sicheren Verwaltung kryptografischer Schlüssel) Speichert vom Kunden verwaltete Schlüssel für die Verschlüsselung von DBFS, verwalteten Datenträgern und verwalteten Diensten.
Firewall-Zulassungsliste Erforderliche Azure Databricks-Endpunkte. Siehe Konfigurieren von Firewallregeln für Domänennamen.

Architekturkomponenten

Die Architektur umfasst vier Hauptbereiche: Netzwerkisolation, private Konnektivität, Ausgangssteuerung und serverlose Sicherheit.

Schildsymbol. Netzwerkisolation

Stellen Sie Azure Databricks mit aktivierter Enable secure cluster connectivity (SCC) in einem virtuellen Netzwerk mithilfe von Deploy Azure Databricks in Ihrem virtuellen Azure-Netzwerk (VNet injection) bereit. Sie können eine Hub-and-Spoke-Topologie mit einer zentralen Firewall oder einer isolierten (Insel)-Netzwerktopologie ohne Hub bereitstellen. Diese Konfiguration:

  • Entfernt öffentliche IP-Adressen auf Clusterknoten.
  • Erfordert dedizierte Subnetzpaare pro Arbeitsbereich (eine private, eine öffentliche).
  • Routen steuern den Flugzeugverkehr über private Endpunkte.
Symbol Private Konnektivität

Richten Sie Private Link Endpunkte für vom Kunden verwaltete Azure Speicherkonten in einem dedizierten Subnetz ein:

Note

Private Endpunkte und Dienstendpunktrichtlinien gelten nur für vom Kunden verwaltete Azure Speicherkonten. Azure Databricks verwaltete Ressourcen (Artefaktspeicher, Protokollspeicher und Event Hubs) können nicht hinter privaten Endpunkten platziert werden.

Konfigurieren Sie Configure Eingehende Private Link für den Benutzerzugriff und die Browserauthentifizierung (SSO).

Filtersymbol. Egresssteuerung

Stellen Sie Azure Firewall (oder eine virtuelle Drittanbieter-Appliance) in einem virtuellen Hubnetzwerk bereit:

  • Application-Regeln: Definieren Von FQDNs, auf die über die Firewall zugegriffen werden kann (Steuerungsebene, Web-App und SCC-Relay, wenn klassische Computeebene Private Link nicht konfiguriert ist).
  • Netzwerkregeln: Definieren Sie IP-Adresse, Port und Protokoll für Endpunkte, die keine FQDNs verwenden können.
  • Benutzerdefinierte Routen (UDRs): Weiterleiten von nicht lokalem Datenverkehr von Azure Databricks Subnetzen über die Firewall mithilfe einer Standardroute (0.0.0.0/0).

Note

Bei Verwendung von Dienstendpunktrichtlinien sind keine Firewallnetzwerkregeln für Azure Databricks Dienstspeicherkonten (Artefakt, Protokollierung, Systemtabellen) erforderlich.

Dienstendpunkte umgehen die Firewall für Azure Databricks Systemspeicher, verringern die Kosten für die Datenübertragung und vermeiden Drosselung. Der Artefaktspeicher allein kann bis zu 11 GB pro Clusterknoten heruntergeladen werden.

Schildüberprüfungssymbol. Serverlose Sicherheit

Konfigurieren Sie Was ist serverlose Egress-Kontrolle?, um den ausgehenden Datenverkehr zu steuern. Verwenden Sie Netzwerke für die serverlose Compute-Ebene, um private Verbindungen zwischen serverlosen Compute-Ressourcen und Azure-Speicherkonten (ADLS Gen2) herzustellen.

Optimierungsstrategien:

  • Verwenden Sie Dienstendpunkte anstelle von Private Link, sofern die Sicherheitsanforderungen dies zulassen.
  • Konfigurieren Sie Richtlinien für den Dienstendpunkt, um die Firewall für Azure Databricks Systemspeicher zu umgehen (reduziert die Kosten für die Datenübertragung und verhindert Drosselung).
  • Dimensionieren Sie den Durchsatz von Azure Firewall oder NVA anhand der tatsächlichen Anforderungen angemessen.
  • Überwachen Sie die Kosten für die Datenübertragung über Firewall-Appliances.

Detaillierte Anleitungen finden Sie unter "Grundlegendes zu Databricks-Netzwerkkosten ".

Siehe auch

Ressource Description
Netzwerkreferenzarchitekturen Netzwerksicherheitsarchitekturen (verwaltet, gehärtet, isoliert).
Sicherheit und Konformität Sicherheits- und Compliancekontrollen über Netzwerke hinaus.