Big Data-Analysen mit Sicherheit auf Unternehmensniveau mit Azure Synapse

Azure Analysis Services

Azure Data Lake Storage

Azure Synapse Analytics

Lösungsmöglichkeiten

In diesem Artikel ist ein Lösungsvorschlag beschrieben. Ihr Cloudarchitekt kann diesen Leitfaden verwenden, um die Hauptkomponenten einer typischen Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

Die in diesem Artikel beschriebene Lösung veranschaulicht die Verwendung von Azure Synapse Analytics zum Erstellen einer modernen Datenplattform zum Erfassen, Verarbeiten, Speichern, Bereitstellen und Visualisieren von Daten aus verschiedenen Quellen.

Aufbau

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Die Daten durchlaufen die Lösung wie folgt:

Die Kopieraktivitäten von Synapse-Pipelines erfassen strukturierte Rohdaten aus externen relationalen Data Warehouses, aus halbstrukturierten Daten wie Protokollen, Flatfiles und XML-Code sowie aus anderen Quellsystemen. Diese erfassten Daten werden dann an einem Azure Data Lake Storage Gen2-Speicherort gespeichert. Mit einer selbstgehosteten Integration Runtime können auch Kopieraktivitäten zwischen einem Datenspeicher in Ihrer lokalen Umgebung und der Cloud verwaltet und durchgeführt werden.
Azure Data Lake Storage Gen2 bietet sicheren Speicher.
- Es empfiehlt sich, den Speicherkontozugriff mithilfe einer Firewall auf vertrauenswürdige Azure-Dienste zu beschränken, um die Gefahr externer Angriffe zu minimieren.
- Private Endpunkte für Ihre Azure Storage-Konten sorgen dafür, dass Clients in einem virtuellen Netzwerk (VNet) über Private Link sicher auf Daten zugreifen können. Der private Endpunkt verwendet eine IP-Adresse aus dem VNet-Adressraum für den Speicherkontodienst. Netzwerkdatenverkehr zwischen den Clients im VNet und dem Speicherkonto wird über das VNet und eine private Verbindung im Microsoft-Backbonenetzwerk geleitet und so vom öffentlichen Internet isoliert.
Ruhende Daten werden verschlüsselt, sobald sie im Data Lake erfasst wurden. Durch die Verwendung eigener kundenseitig verwalteter Schlüssel können Sie Ihre Verschlüsselungsschlüssel zusätzlich schützen und Zugriffssteuerungen noch flexibler verwalten.
Daten werden mithilfe von Synapse-Pipelines erfasst und phasenweise unter Verwendung des Synapse Spark-Pools und der zugehörigen Data Lake-Funktionen verarbeitet. Daten werden im Azure Storage-Konto mithilfe phasenspezifischer Azure Data Lake Storage Gen2-Verzeichnisse gespeichert. Die Phasen sehen wie folgt aus:
1. Durch die Kopieraktivitäten der Synapse-Pipelines werden zunächst Daten aus den Quellsystemen erfasst. Diese erfassten Daten werden im Rohformat unter Verwendung des Data Lake-Verzeichnisses Bronze gespeichert.
2. Durch den Synapse Spark-Pool werden Datenqualitätsregeln angewendet, um die Rohdaten zu bereinigen. Die so angereicherten Daten werden anschließend im Data Lake-Verzeichnis Silver gespeichert.
3. Nach dem Bereinigungsvorgang werden vom Spark-Pool alle erforderlichen Normalisierungen, Datentransformationen und Geschäftsregeln auf die Daten im Verzeichnis „Silver“ angewendet. Anschließend werden die transformierten Daten im Data Lake-Verzeichnis Gold gespeichert.
Durch den Connector „Azure Synapse Apache Spark to Synapse SQL“ werden die normalisierten Daten in den Synapse SQL-Pool gepusht, wo sie von Downstreamanwendungen und Berichterstellungsdiensten wie Power BI genutzt werden können. Dieser Connector ist für die optimale Übertragung von Daten zwischen den serverlosen Apache Spark-Pools und den SQL-Pools im Azure Synapse Analytics-Arbeitsbereich konzipiert.
Der Power BI-Dienst verwendet den DirectQuery-Modus, um Daten sicher aus dem Synapse SQL-Pool abzurufen. Ein auf einem virtuellen Computer im privaten VNet installiertes Datengateway fungiert als Verbindungsplattform zwischen dem Power BI-Dienst und dem Synapse SQL-Pool und verwendet einen privaten Endpunkt im gleichen VNet, um eine sichere Verbindung herzustellen.
Externe Anwendungen können auf Daten aus den serverlosen Synapse-Pools oder dedizierten SQL-Pools zugreifen, indem sie auf die entsprechenden privaten Endpunkte zugreifen, die mit dem VNet verbunden sind.

In dieser Beispiellösung werden mehrere Azure-Dienste und -Features verwendet:

Azure Synapse Analytics ist der in dieser Beispiellösung verwendete Kerndienst für die Erfassung, Verarbeitung und Analyse von Daten.
Azure Data Lake Storage (Gen2) basiert auf Azure Storage-Diensten und bietet Data Lake-Funktionen, die von anderen Diensten in dieser Beispiellösung beim Speichern und Verarbeiten von Daten verwendet werden.
Synapse-Pipelines kopieren Daten aus ursprünglichen Quellen an die Data Lake-Speicherorte.
Apache Spark in Azure Synapse Analytics bereinigt, normalisiert und führt andere Verarbeitungsaufgaben für Daten von Quellspeicherorten aus.
Ein dedizierter SQL-Pool (vormals SQL DW) bietet Data Warehousing-Funktionen für Daten, die verarbeitet und normalisiert wurden und von Ihren Endbenutzern und Anwendungen verwendet werden können.
Ein serverloser SQL-Pool ermöglicht schnelle Abfragen und Analysen für verarbeitete und normalisierte Daten.
Durch ein von Azure Synapse verwaltetes virtuelles Netzwerk entsteht eine isolierte verwaltete virtuelle Netzwerkumgebung für den Azure Synapse-Arbeitsbereich, sodass Sie sich nicht mehr um die Verwaltung der Netzwerkkonfiguration für die Arbeitsbereichsressourcen kümmern müssen.
Durch verwaltete private Endpunkte in Azure Synapse werden private Verbindungen mit Azure-Ressourcen eingerichtet, und Datenverkehr zwischen Ihren Azure Synapse-Arbeitsbereichen und anderen Azure-Ressourcen wird ausschließlich über das Microsoft-Backbonenetzwerk übertragen.
Azure Virtual Network (VNet) bietet private Netzwerkfunktionen für Azure-Ressourcen, die nicht dem Azure Synapse-Arbeitsbereich angehören. Dies ermöglicht die Verwaltung des Zugriffs, der Sicherheit und des Routings zwischen Ressourcen.
Ein privater Endpunkt in Azure stellt eine private IP-Adresse aus dem VNet der Lösung für verwaltete Azure-Dienste bereit, was im Grunde dazu dient, einen Dienst mit dem VNet zu verbinden. So entsteht ein sicheres Netzwerk zwischen dem Azure Synapse-Arbeitsbereich und anderen Azure-Diensten wie Azure Storage, Azure Cosmos DB, Azure SQL-Datenbank oder Ihrem eigenen Azure Private Link-Dienst.
Mit Power BI können Benutzer die verarbeiteten Daten der Lösung nutzen, um erweiterte Analysen durchzuführen und Erkenntnisse weiterzugeben.

Komponenten

Szenariodetails

Azure Synapse Analytics vereint Datenintegration, Data Warehousing für Unternehmen und Big Data-Analysen, um Ihnen beim Aufbau einer modernen Datenplattform zu helfen, die die gängigsten Datenherausforderungen großer Organisationen meistern kann. Mit Azure Virtual Network können Sie Ihr eigenes privates Netzwerk in der öffentlichen Azure-Cloud sowie ein verwaltetes Netzwerk erstellen, und private Azure-Endpunkte ermöglichen die sichere Integration verwalteter Clouddienste in diese privaten Netzwerke.

Mögliche Anwendungsfälle

Die in diesem Artikel beschriebene Lösung zeigt, wie diese Technologien miteinander kombiniert werden können, um eine moderne Datenplattform zu erstellen, die Daten aus unterschiedlichen (strukturierten und teilweise strukturierten) Quellen erfassen, verarbeiten, speichern, bereitstellen und visualisieren sowie den hohen Sicherheitsstandards Ihrer Organisation gerecht werden kann. Dies schließt die Unterstützung gängiger Anforderungen ein:

Schützen von Datenquellen: Datenquellen innerhalb des lokalen Unternehmensnetzwerks oder im virtuellen Netzwerk werden hinter einer Firewall geschützt. Für den sicheren Zugriff auf diese Ressourcen kann eine selbstgehostete Integration Runtime für eine Ressource installiert werden, die lokal oder in den virtuellen Netzwerken gehostet wird.
Authentifizierung und Autorisierung mit verwalteten Identitäten: Die Kommunikation zwischen Azure-Diensten kann mithilfe verwalteter Identitäten geschützt werden. Die bereitgestellte Identität kann von Anwendungen verwendet werden, wenn diese eine Verbindung mit Ressourcen herstellen, die Microsoft Entra ID unterstützen. In diesem Beispiel wird die verwaltete Identität von Azure Synapse zum Integrieren von Pipelines genutzt.
Private Endpunkte zur Einrichtung einer privaten Verbindung mit Azure-Ressourcen: Azure Synapse bietet vollständig verwaltete private Endpunkte für Dienste im Synapse-Arbeitsbereich (beispielsweise Azure Storage oder Azure Cosmos DB). Andere Azure-Ressourcen wie Azure-Anwendungen, Microsoft Power BI und Azure Synapse werden mithilfe von privaten Endpunkten geschützt, die in das virtuelle Netzwerk der Beispiellösung integriert sind. Für Netzwerkdatenverkehr zwischen Ihrem privaten Netzwerk und den Synapse-Pools wird Private Link verwendet, um Datenverkehr über das Microsoft-Backbonenetzwerk zu übertragen und so vom öffentlichen Internet zu isolieren.
Verschlüsseln von Daten während der Übertragung: Daten werden während der Übertragung verschlüsselt, da alle Datenübertragungen über sichere Kanäle (HTTPS und TLS über TCP) erfolgen, um Man-in-the-Middle-Angriffe während der Kommunikation mit Azure-Diensten zu verhindern und eine sichere private End-to-End-Datenverschiebung sicherzustellen.
Verschlüsseln ruhender Daten: Transparent Data Encryption in Azure Synapse Analytics trägt zum Schutz vor schädlichen Aktivitäten bei, indem Ihre im Synapse-Arbeitsbereich gespeicherten Daten in Echtzeit ver- und entschlüsselt werden. Von Azure Storage werden auch alle ruhenden Daten in einem Speicherkonto verschlüsselt. Standardmäßig werden Daten mit von Microsoft verwalteten Schlüsseln verschlüsselt. Sie können aber auch Ihre eigenen Schlüssel verwalten, wenn Sie zusätzliche Kontrolle über die Verschlüsselung benötigen.

Bereitstellen dieses Szenarios

Sie benötigen ein bestehendes Azure-Konto. Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.

Die Azure Resource Manager-Vorlagen, die Sie benötigen, um die in dieser Architektur beschriebenen Komponenten bereitzustellen, sind im GitHub-Repository verfügbar. Diese Vorlagen stellen alle im Architekturdiagramm dargestellten Dienste bereit, mit diesen Ausnahmen: dem Power BI-Datengateway, der selbstgehosteten Integration Runtime und Azure Key Vault für vom Kunden verwaltete Schlüssel.

Das Erstellen der Data Lake-Ordnerstruktur und der Azure Synapse Analytics-Integrationspipelines, die zum Herstellen von Verbindungen mit den Datenquellen erforderlich sind, liegt in der Zuständigkeit des Benutzers.

Stellen Sie die ARM-Vorlage direkt durch Klicken auf diese Schaltfläche bereit:

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Kiran Kalyanam | Senior Software Engineer

Nächste Schritte

Machen Sie sich anhand der folgenden Tutorials mit den Grundlagen von Azure Synapse Analytics vertraut, um zu erfahren, wie Sie diesen Ansatz weiterentwickeln können:

Die folgenden Artikel enthalten Informationen zur Planung und Bereitstellung von Lösungen mit Azure Synapse Analytics:

Freigeben über

Big Data-Analysen mit Sicherheit auf Unternehmensniveau mit Azure Synapse

Aufbau

Datenfluss

Komponenten

Szenariodetails

Mögliche Anwendungsfälle

Bereitstellen dieses Szenarios

Beitragende

Nächste Schritte

Feedback

Feedback

Zusätzliche Ressourcen

Freigeben über

Big Data-Analysen mit Sicherheit auf Unternehmensniveau mit Azure Synapse

Aufbau

Datenfluss

Komponenten

Szenariodetails

Mögliche Anwendungsfälle

Bereitstellen dieses Szenarios

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Zugehörige Architekturleitfäden

Feedback

Feedback

Zusätzliche Ressourcen