Azure Synapse Analytics: Häufig gestellte Fragen

In diesem Leitfaden finden Sie die am häufigsten gestellten Fragen zu Azure Synapse Analytics.

Allgemein

Wie kann ich RBAC-Rollen verwenden, um meinen Arbeitsbereich zu schützen?

Mit Azure Synapse werden verschiedene Rollen sowie Bereiche für deren Zuweisung eingeführt, um das Schützen Ihres Arbeitsbereichs zu vereinfachen.

RBAC-Rollen von Synapse:

  • Synapse-Administrator
  • Synapse SQL-Administrator
  • Synapse Spark-Administrator
  • Synapse-Mitwirkender
  • Herausgeber von Synapse-Artefakten
  • Benutzer von Synapse-Artefakten
  • Operator von Synapse-Computeressourcen
  • Synapse-Anmeldeinformationsbenutzer
  • Synapse-Manager für verknüpfte Daten
  • Synapse-Benutzer

Weisen Sie die RBAC-Rollen den folgenden RBAC-Bereichen zu, um Ihren Synapse-Arbeitsbereich zu schützen:

  • Arbeitsbereiche
  • Spark-Pools
  • Integration Runtimes
  • Verknüpfte Dienste
  • Anmeldeinformationen

Darüber hinaus verfügen Sie bei dedizierten SQL-Pools über alle Sicherheitsfunktionen, mit denen Sie bereits vertraut sind.

Wie kann ich dedizierte SQL-Pools, serverlose SQL-Pools und serverlose Spark-Pools steuern?

Der Ausgangspunkt ist, dass von Azure Synapse die integrierte Kostenanalyse und die Kostenwarnungen auf Azure-Abonnementebene genutzt werden.

  • Dedizierte SQL-Pools: Sie verfügen über direkten Einblick in die Kosten und besitzen die Kontrolle darüber, weil Sie die dedizierten SQL-Pools erstellen und deren Größen angeben. Außerdem können Sie mit Azure RBAC-Rollen steuern, welche Benutzer dedizierte SQL-Pools erstellen oder skalieren können.

  • Serverlose SQL-Pools: Sie verfügen über Tools für die Überwachung und Kostenkontrolle, mit denen Sie die täglichen, wöchentlichen und monatlichen Ausgaben begrenzen können. Weitere Informationen finden Sie unter Kostenverwaltung für serverlose SQL-Pools in Azure Synapse Analytics.

  • Serverlose Spark-Pools: Sie können mit Synapse-RBAC-Rollen einschränken, wer Spark-Pools erstellen kann.

Verfügt der Synapse-Arbeitsbereich in der Phase „Allgemeine Verfügbarkeit“ über Unterstützung für die Anordnung von Objekten in Ordnern und der Granularität?

Für Synapse-Arbeitsbereiche werden benutzerdefinierte Ordner unterstützt.

Kann ich mehrere Power BI-Arbeitsbereiche mit einem einzelnen Azure Synapse-Arbeitsbereich verknüpfen?

Ja. Seit dem 10. Juni 2021 können Sie mit Synapse Studio einem Azure Synapse-Arbeitsbereich mehr als einen Power BI-Arbeitsbereich hinzufügen.

Azure Synapse Analytics unterstützt derzeit Azure Synapse Link von Azure Cosmos DB zu Synapse Apache Spark und serverlosen SQL-Pools. Azure Synapse Link für Apache Spark ist allgemein verfügbar. Synapse Link für serverlose SQL-Pools befindet sich in der öffentlichen Vorschauphase. Weitere Informationen finden Sie unter Azure Synapse Link für Azure Cosmos DB.

Azure Synapse Link für SQL ist für SQL Server 2022 und Azure SQL-Datenbank allgemein verfügbar. Weitere Informationen finden Sie unter Was ist Azure Synapse Link für SQL?

Wird für den Azure Synapse-Arbeitsbereich CI/CD unterstützt?

Ja! Alle Pipelineartefakte, Notebooks, SQL-Skripts und Spark-Auftragsdefinitionen werden sich in Git befinden. Alle Pooldefinitionen werden in Git als ARM-Vorlagen (Azure Resource Manager) gespeichert. Dedizierte SQL-Pool-Objekte (Schemas, Tabellen, Views usw.) werden mit Datenbankprojekten mit CI/CD-Unterstützung verwaltet. Weitere Informationen finden Sie in diesem CI- und CD-Leitfaden.

Welche Funktionsunterschiede gibt es zwischen dedizierten SQL-Pools und serverlosen Pools?

Die Fähigkeiten und Anforderungen unterscheiden sich zwischen den beiden Arten von Pools. Zu den Unterschieden gehören Datenbankobjekte, Abfragesprachenfähigkeiten, Sicherheit, Tools, Datenzugriff und Datenformat. Einen detaillierten Vergleich von SQL-Pools und serverlosen Pools finden Sie unter Poolvergleich. Für bewährte Methoden beim Verwenden eines poolstyps können Sie bewährte Methoden für Dedicated SQL-Pool und bewährte Methoden für serverlose SQL-Pool anzeigen.

Was sind Delta-Tabellen, und warum sollte ich sie verwenden?

Lakehouse basiert auf offenen, direkt zugänglichen Datenformaten wie Apache Parquet. Es bietet erstklassige Unterstützung für maschinelles Lernen und Data Science. Eine Delta-Tabelle ist eine Ansicht von Daten, die in einem Delta Lake enthalten sind, der die meisten Optionen unterstützt, die von Apache Spark DataFrame-Lese- und Schreib-APIs bereitgestellt werden. Lakehouses kann bei großen Herausforderungen mit Data Warehouses helfen, wie z. B. Datenveraltung, Zuverlässigkeit, Gesamtbetriebskosten und Datensperre. Für Delta-Tabellen sind Optimierungen wie automatische Komprimierung und adaptive Abfragepläne verfügbar. Eine detaillierte Anleitung zum Delta Lake finden Sie im Delta Lake Guide.

Was ist automatische Komprimierung?

Die automatische Komprimierung ist eine von zwei sich ergänzenden Funktionen der automatischen Optimierung für Delta-Tabellen. Nachdem ein Schreibvorgang in eine Tabelle erfolgreich war, kann die automatische Komprimierung Dateien für Partitionen weiter komprimieren, die die meisten kleinen Dateien enthalten. Die Aktivierung der automatischen Komprimierung wird für Streaming-Anwendungsfälle empfohlen, bei denen das Hinzufügen von Minuten Latenz akzeptabel ist und wenn Sie keine regelmäßigen OPTIMIZE-Aufrufe in Ihrer Tabelle haben. Weitere Informationen zur automatischen Optimierung finden Sie in diesem Leitfaden zur automatischen Optimierung.

Pipelines

Wie kann ich ermitteln, welche Anmeldeinformationen zum Ausführen einer Pipeline verwendet werden?

Jede Aktivität in einer Synapse-Pipeline wird mit den Anmeldeinformationen ausgeführt, die im verknüpften Dienst angegeben sind.

Werden SSIS IRs in Synapse Integrate unterstützt?

Derzeit leider nicht.

Wie unterscheiden sich Azure Data Factory-Pipelines und Azure Synapse-Pipelines?

Einige Beispiele für Unterschiede sind die Unterstützung globaler Parameter, die Überwachung von Spark-Jobs für den Datenfluss und die gemeinsame Nutzung der Integration Runtime. Weitere Informationen finden Sie in diesem Dokument für die Datenintegration – Synapse vs ADF.

Wie kann ich vorhandene Pipelines aus Azure Data Factory zu einem Azure Synapse-Arbeitsbereich migrieren?

Aktuell müssen Sie Ihre Azure Data Factory-Pipelines und die zugehörigen Artefakte manuell neu erstellen, indem Sie den JSON-Code aus der ursprünglichen Pipeline exportieren und in Ihren Synapse-Arbeitsbereich importieren.

Gewusst wie ich eine Apache Spark-Auftragsdefinition verwende?

Schauen Sie sich die Schnellstartanleitung an.

Kann ich Notebooks aus ADF-Pipelines aufrufen?

Für diesen Anwendungsfall gibt es zwei Möglichkeiten. Eine Option besteht darin, Pipelines in ADF zu belassen, und Sie müssen eine Webaktivität einschließen. Weitere Informationen zu dieser Option finden Sie in diesem Webaktivitätshandbuch. Die andere Möglichkeit besteht darin, die Pipelines zu Synapse zu migrieren. Weitere Informationen zur zweiten Option finden Sie in diesem Migrationscodebeispiel.

Apache Spark

Worin besteht der Unterschied zwischen Apache Spark für Synapse und Apache Spark?

Apache Spark für Synapse ist mit Apache Spark identisch, verfügt aber zusätzlich über Unterstützung für Integrationen mit anderen Diensten (Azure AD, Azure Machine Learning usw.) und zusätzliche Bibliotheken (mssparkutils, Hummingbird) sowie vorab optimierte Leistungskonfigurationen.

Alle Workloads, die zurzeit unter Apache Spark ausgeführt werden, werden ohne Änderungen auch unter Apache Spark für Azure Synapse ausgeführt.

Welche Versionen von Spark sind verfügbar?

Ab Mai 2021 unterstützt Azure Synapse Apache Spark 2.4 und Spark 3.1 vollständig. Ab April 2022 befindet sich Spark 3.2 in der Vorschau. Eine vollständige Liste der Kernkomponenten und derzeit unterstützten Versionen finden Sie unter Apache Spark-Versionsunterstützung.

Gibt es in Azure Synapse Spark eine Option, die DBUtils entspricht?

Ja. Azure Synapse Apache Spark verfügt über die Bibliothek mssparkutils. Die vollständige Dokumentation zum Hilfsprogramm finden Sie unter Einführung in Microsoft Spark-Hilfsprogramme.

Wie lege ich Sitzungsparameter in Apache Spark fest?

Verwenden Sie zum Festlegen von Sitzungsparametern den verfügbaren Magic-Befehl „%%configure“. Damit die Parameter wirksam werden, ist ein Neustart der Sitzung erforderlich.

Wie kann ich in einem serverlosen Spark-Pool Parameter für die Clusterebene festlegen?

Zum Festlegen von Parametern für die Clusterebene können Sie eine „spark.conf“-Datei für den Spark-Pool angeben. Vom Pool werden dann die Parameter berücksichtigt, die in der Konfigurationsdatei enthalten sind.

Kann ich einen Spark-Cluster mit mehreren Benutzern in Azure Synapse Analytics ausführen?

Azure Synapse verfügt über zweckgebundene Engines für bestimmte Anwendungsfälle. Apache Spark für Synapse wurde als Auftragsdienst und nicht als Clustermodell konzipiert. Es gibt zwei Szenarien, in denen ein mehrbenutzerfähiges Clustermodell benötigt wird.

Szenario 1: Viele Benutzer greifen auf einen Cluster zu, um Daten für BI-Zwecke bereitzustellen.

Die einfachste Lösungsmöglichkeit ist das Aufbereiten der Daten mit Spark und die anschließende Nutzung der Bereitstellungsfunktionen von Synapse SQL, damit für Power BI eine Verbindung mit diesen Datasets hergestellt werden kann.

Szenario 2: In einem Cluster sind mehrere Entwickler angeordnet, um Kosten zu sparen.

Bei diesem Szenario sollte für jeden Entwickler ein serverloser Spark-Pool vorhanden sein, für den die Nutzung einer geringen Zahl von Spark-Ressourcen festgelegt ist. Da für serverlose Spark-Pools erst dann Kosten anfallen, wenn sie aktiv genutzt werden, kann bei mehreren vorhandenen Entwicklern eine Kostenreduzierung erzielt werden. Von den Pools werden Metadaten (Spark-Tabellen) gemeinsam genutzt, damit die Zusammenarbeit leicht möglich ist.

Wie kann ich Bibliotheken einfügen, verwalten und installieren?

Sie können externe Pakete mit der Datei „requirements.txt“ über den Synapse-Arbeitsbereich oder das Azure-Portal installieren, während Sie den Spark-Pool erstellen. Weitere Informationen finden Sie unter Verwalten von Bibliotheken für Apache Spark in Azure Synapse Analytics.

Welche Tools stehen mir auf Synapse Spark zur Verfügung?

MSSparkUtils auf Synapse Spark bietet eine Vielzahl von Dienstprogrammen, um Ihre Erfahrung zu verbessern und die Integration mit anderen Tools und Diensten zu vereinfachen. Arbeiten Sie mit Dateisystemen, rufen Sie Umgebungsvariablen ab, verketten Sie Notebooks und arbeiten Sie mit Geheimnissen mit minimalen manuellen Schritten. Die vollständige Dokumentation finden Sie unter Microsoft Spark Utilities.

Dedizierte SQL-Pools

Was ist der Unterschied zwischen dedizierten SQL-Pools (SQL DW) und dedizierten SQL-Pools in Azure Synapse Arbeitsbereichen?

Dedizierte SQL-Pools (früher SQL DW) sind eine Azure Platform-as-a-Service (PaaS)-Data Warehousing-Plattform für Unternehmen. Sie können vorhandene dedizierte SQL-Pools (ehemals SQL DW) abfragen und auch neue dedizierte SQL-Pools in Ihrem Azure Synapse-Arbeitsbereich erstellen. Nicht alle Features des dedizierten SQL Pools in Azure Synapse Arbeitsbereichen gelten für einen eigenständigen dedizierten SQL Pool (ehemals SQL DW) und umgekehrt. Weitere Informationen finden Sie unter Was ist der Unterschied zwischen dedizierten SQL-Pools in Azure Synapse (ehemals SQL DW) und dedizierten SQL-Pools in einem Azure Synapse Analytics-Arbeitsbereich?. Wie Sie Azure Synapse-Arbeitsbereichsfunktionen für einen vorhandenen dedizierten SQL-Pool (ehemals SQL DW) aktivieren, erfahren Sie unter Aktivieren eines Arbeitsbereichs für Ihren dedizierten SQL-Pool (ehemals SQL DW).

Welche Funktionsunterschiede gibt es zwischen dedizierten SQL-Pools und serverlosen Pools?

Eine vollständige Liste mit den Unterschieden finden Sie unter T-SQL-Funktionsunterschiede in Synapse SQL.

Da Azure Synapse jetzt allgemein verfügbar ist: Wie kann ich meine dedizierten SQL-Pools, die bisher eigenständig waren, nach Azure Synapse verschieben?

Eine „Verschiebung“ oder „Migration“ ist nicht erforderlich. Sie können auswählen, dass neue Arbeitsbereichsfeatures für Ihre vorhandenen Pools aktiviert werden sollen. Wenn Sie so vorgehen, kommt es nicht zu Breaking Changes, sondern Sie können die neuen Features nutzen, z. B. Synapse Studio, Spark und serverlose SQL-Pools. Nicht alle Features des dedizierten SQL Pools in Azure Synapse Arbeitsbereichen gelten für dedizierte SQL Pools (ehemals SQL DW) und umgekehrt. Wie Sie Arbeitsbereichsfunktionen für einen vorhandenen dedizierten SQL-Pool (ehemals SQL DW) aktivieren, erfahren Sie unter Aktivieren von Synapse-Arbeitsbereichsfunktionen für einen dedizierten SQL-Pool (ehemals SQL DW).

Wie sieht die Standardbereitstellung von dedizierten SQL-Pools jetzt aus?

Standardmäßig werden alle neuen dedizierten SQL-Pools in einem Arbeitsbereich bereitgestellt. Bei Bedarf können Sie aber trotzdem noch einen dedizierten SQL-Pool (vormals SQL DW) basierend auf dem Formfaktor „Eigenständig“ erstellen.

Netzwerksicherheit

Gewusst wie: Sichern des Zugriffs auf meinen Azure Synapse-Arbeitsbereich

Sowohl mit als auch ohne ein verwaltetes virtuelles Netzwerk können Sie aus öffentlichen Netzwerken eine Verbindung mit Ihrem Arbeitsbereich herstellen. Weitere Informationen finden Sie unter Konnektivitätseinstellungen. Der Zugriff aus öffentlichen Netzwerken lässt sich kontrollieren, indem Sie das Feature für den Zugriff auf öffentliche Netzwerke oder die Arbeitsbereichsfirewall aktivieren. Alternativ können Sie auch über einen verwalteten privaten Endpunkt und Private Link eine Verbindung mit Ihrem Arbeitsbereich herstellen. Synapse-Arbeitsbereiche ohne das verwaltete virtuelle Netzwerk von Azure Synapse Analytics können keine Verbindung über verwaltete private Endpunkte herstellen.