Verwenden von Azure Synapse Analytics mit Analysen auf Cloudebene

2023-07-11

Azure Synapse Analytics ist ein bereitgestellter integrierter Analysedienst zur schnelleren Gewinnung von Erkenntnissen aus Data Warehouses und Big Data-Systemen. Azure Synapse Analytics vereint:

Die besten SQL-Technologien, die in Data Warehousing für Unternehmen verwendet werden
Für Big Data verwendete Spark-Technologien
Pipelines für die Datenanwendung (quellenorientiert) sowie für Extrahieren, Transformieren und Laden (ETL) oder Extrahieren, Laden und Transformieren (ELT)

Azure Synapse Studio ist ein Tool in Azure Synapse, das eine einheitliche Erfahrung für die Verwaltung, Überwachung, Codierung und Sicherheit bietet. Synapse Studio zeichnet sich durch umfassende Integration mit anderen Azure-Diensten wie Power BI, Azure Cosmos DB und Azure Machine Learning aus.

Hinweis

In diesem Abschnitt werden vorgeschriebene Konfigurationen beschrieben, die spezifisch für Analysen auf Cloudebene sind. Dies ist eine Ergänzung zur offiziellen Azure Synapse Analytics-Dokumentation.

Übersicht

Während der anfänglichen Einrichtung einer Datenzielzone können Sie einen einzelnen Azure Synapse Analytics-Arbeitsbereich für die Verwendung durch alle Analysten und wissenschaftliche Fachkräfte für Daten bereitstellen. Sie können weitere Arbeitsbereiche für bestimmte Datenintegrationen oder Datenprodukte erstellen.

Möglicherweise benötigen Sie zusätzliche Azure Synapse Analytics-Arbeitsbereiche, wenn das Datenprodukt den Zugriff auf standardisierte Daten mit Sicherheit auf Zeilen- und Spaltenebene ermöglichen muss. Sie können diese Arbeitsbereiche mit Azure Synapse-Pools bereitstellen. Datenproduktteams benötigen möglicherweise einen eigenen Arbeitsbereich zum Erstellen von Datenprodukten und einen gesonderten Arbeitsbereich, der nur für Produktteams mit bereichsbezogenem Zugriff für die Entwicklung vorgesehen ist.

Einrichtung von Azure Synapse Analytics

Der erste Schritt bei der Bereitstellung von Azure Synapse Analytics ist das Einrichten eines Azure Synapse-Arbeitsbereichs, der mit einem Azure Purview-Konto verbunden ist.

Azure Synapse Analytics-Netzwerke

Durch eine Datenzielzone werden Arbeitsbereiche mit einem verwalteten virtuellen Azure Synapse Analytics-Netzwerk erstellt. Die Kommunikation mit Azure Synapse erfolgt über die drei verfügbar gemachten Endpunkte: SQL-Pool-, SQL On-Demand- und Entwicklungsendpunkt.

Auf Netzwerkebene werden für Analysen auf Cloudebene verwaltete private Endpunkte in Synapse verwendet. Diese Endpunkte stellen sicher, dass der Datenverkehr zwischen dem virtuellen Netzwerk der Datenzielzone und den Azure Synapse-Arbeitsbereichen vollständig über das Microsoft-Backbone-Netzwerk erfolgt.

Azure Synapse-Datenzugriffssteuerung

Verwenden Sie zum Verwalten des Zugriffs auf die Dateien im Data Lake Zugriffssteuerungslisten mit Passthrough-Authentifizierung von Microsoft Entra in Azure Synapse Analytics.

Für Daten, bei denen Sie zurückgegebene Spalten und Zeilen einschränken müssen, empfehlen wir Sicherheit auf Zeilen- und Spaltenebene, um den Datenzugriff auf die Tabellen in einem dedizierten oder serverlosen Azure Synapse SQL-Pool einzuschränken. Sicherheit auf Zeilen- und Spaltenebene wird auf Datenbankebene und zusätzlich zu den Datenbankrollen implementiert.

Beispielsweise stellt die Sicherheit auf Zeilenebene sicher, dass für Benutzer in einer bestimmten Datenanwendung (quellenorientiert) oder einem bestimmten Datenprodukt nur die eigenen Daten sichtbar sind. Auch dann, wenn die Tabelle Daten für das gesamte Unternehmen enthält.

Sie können Sicherheit auf Zeilenebene mit Sicherheit auf Spaltenebene kombinieren, um den Zugriff auf Spalten mit vertraulichen Daten einzuschränken. Auf diese Weise wird sowohl durch Sicherheit auf Zeilenebene als auch durch Sicherheit auf Spaltenebene die Zugriffseinschränkungslogik in der Datenbankschicht und nicht in der Logikschicht angewendet. Die Berechtigung wird jedes Mal überprüft, wenn in einer beliebigen Schicht versucht wird, auf Daten zuzugreifen.

Hinweis

Der serverlose SQL-Pool von Azure Synapse unterstützt die Sicherheit auf Spaltenebene für Ansichten und nicht für externe Tabellen. Im Falle von externen Tabellen können Sie eine logische Ansicht oberhalb der externen Tabelle erstellen und dann die Sicherheit auf Spaltenebene anwenden. Im Falle der Sicherheit auf Zeilenebene können benutzerdefinierte Ansichten als Problemumgehung verwendet werden.

Weitere Informationen finden Sie unter Azure Synapse Analytics-Datenzugriffssteuerung.

Azure Synapse-Datenzugriffssteuerung in Azure Data Lake

Beim Bereitstellen eines Azure Synapse Analytics-Arbeitsbereichs benötigen Sie ein Azure Data Lake Storage-Konto aus dem Abonnement oder durch manuelle Verwendung der Speicherkonto-URL. Das angegebene Speicherkonto wird als primäres Speicherkonto für das Speichern der Daten des bereitgestellten Azure Synapse-Arbeitsbereichs festgelegt. Azure Synapse speichert Daten in einem Container, der Apache Spark-Tabellen und Spark-Anwendungsprotokolle im Ordner /synapse/{workspaceName} enthält. Azure Synapse verfügt außerdem über einen Container zum Verwalten von Bibliotheken, die Sie installieren.

Tipp

Es wird empfohlen, einen dedizierten Container für die Entwicklungsschicht oder das Data Lake 3-Konto zu verwenden. Dieser Container wird als primärer Speicher für Spark-Metadaten verwendet.

Empfehlungen zum Einrichten des Datenzugriffs finden Sie unter Datenzugriffssteuerung für Azure Synapse Analytics.

Nächste Schritte

Azure Purview Prüfliste für die Bereitschaftsüberprüfung für Cloud-Skalierungsanalysen