Freigeben über


Auswählen einer Batchverarbeitungstechnologie in Azure

Big Data-Lösungen bestehen häufig aus eigenständigen Batchverarbeitungsaufgaben, die zur allgemeinen Datenverarbeitungslösung beitragen. Für Workloads, die keinen sofortigen Zugriff auf Insights erfordern, können Sie die Batchverarbeitung verwenden. Die Batchverarbeitung kann die Anforderungen an die Echtzeitverarbeitung erfüllen. Mithilfe der Batchverarbeitung können Sie auch die Komplexität ausgleichen und die Kosten für Ihre gesamte Implementierung reduzieren.

Die grundlegende Anforderung, die diese Batchverarbeitungs-Engines stellen, ist die Skalierung von Berechnungen, um große Datenvolumen zu verarbeiten. Im Gegensatz zur Echtzeitverarbeitung weist die Batchverarbeitung Wartezeiten auf, oder die Zeit zwischen der Datenerfassung und der Berechnung eines Ergebnisses in Minuten oder Stunden:

Auswählen einer Technologie für die Batchverarbeitung

Microsoft bietet mehrere Dienste, die Sie für die Batchverarbeitung verwenden können.

Microsoft Fabric

Microsoft Fabric ist eine All-in-One-Analyse- und Datenplattform für Organisationen. Es handelt sich um ein SaaS-Angebot (Software-as-a-Service), das die Bereitstellung, Verwaltung und Steuerung einer End-to-End-Analyselösung vereinfacht. Fabric verarbeitet die Verschiebung, Verarbeitung, Erfassung und Transformation von Daten sowie die Berichterstellung. Die Funktionen von Fabric, die Sie für die Batchverarbeitung verwenden, umfassen Datentechnik, Data Warehouses, Data Lakehouses und die Verarbeitung mit Apache Spark. Azure Data Factory in Fabric unterstützt auch Lakehouses. Sie können den KI-gesteuerten Copilot aktivieren, um die Entwicklung zu vereinfachen und zu beschleunigen.

  • Sprachen: R, Python, Java, Scala und SQL

  • Sicherheit: Verwaltetes virtuelles Netzwerk und rollenbasierte Zugriffssteuerung in OneLake (RBAC)

  • Primärer Speicher: OneLake mit Tastenkombinationen und Spiegelungsoptionen

  • Spark: Ein im Voraus aufgefüllter (hydratisierter) Starterpool und ein benutzerdefinierter Spark-Pool mit vordefinierten Knotengrößen

Azure Synapse Analytics

Azure Synapse Analytics ist ein Unternehmensanalysedienst, der sowohl SQL- als auch Spark-Technologien unter einem einzigen Arbeitsbereich zusammenführt. Azure Synapse Analytics vereinfacht Sicherheit, Governance und Verwaltung. Jeder Arbeitsbereich verfügt über integrierte Datenpipelines, mit denen Sie End-to-End-Workflows erstellen können. Sie können auch einen dedizierten SQL-Pool für umfangreiche Analysen bereitstellen – ein serverloser SQL-Endpunkt, den Sie verwenden können, um Daten aus dem Lake direkt abzufragen, und eine Spark-Laufzeit für die verteilte Datenverarbeitung.

  • Sprachen: Python, Java, Scala und SQL

  • Sicherheit: Verwaltetes virtuelles Netzwerk, RBAC und Zugriffssteuerungslisten sowie Zugriffssteuerungslisten für Speicher in Azure Data Lake Storage

  • Primärer Speicher: Data Lake Storage, das auch in andere Quellen integriert werden kann

  • Spark: Benutzerdefiniertes Spark-Konfigurationssetup mit vordefinierten Knotengrößen

Azure Databricks

Azure Databricks ist eine Apache Spark-basierte Analyseplattform. Es bietet umfangreiche und Premium-Features von Spark, die auf Open-Source-Spark basieren. Azure Databricks ist ein Microsoft-Dienst, der in den Rest der Azure-Dienste integriert ist. Es bietet zusätzliche Konfigurationen für Spark-Clusterbereitstellungen. Und Unity Catalog trägt dazu bei, die Verwaltung von Azure Databricks Spark-Objekten zu vereinfachen.

  • Sprachen: R, Python, Java, Scala und Spark SQL.

  • Sicherheit: Benutzerauthentifizierung mit Microsoft Entra ID.

  • Primärer Speicher: Integrierte Integration in Azure Blob Storage, Azure Data Lake Storage, Azure Synapse Analytics und andere Dienste. Weitere Informationen finden Sie unter Datenquellen.

Weitere Vorteile sind:

  • Webbasierte Notebooks für Zusammenarbeit und das Durchsuchen von Daten

  • Schnellere Startzeiten für Cluster, automatische Beendigung und automatische Skalierung.

  • Unterstützung für GPU-fähige Cluster.

Wichtige Auswahlkriterien

Stellen Sie sich die folgenden Fragen, wenn Sie Ihre Technologie für die Batchverarbeitung auswählen:

  • Möchten Sie einen verwalteten Dienst, oder möchten Sie Ihre eigenen Server verwalten?

  • Möchten Sie Batchverarbeitungslogik deklarativ oder imperativ erstellen?

  • Führen Sie Batchaufträge schubweise aus? Falls ja, ziehen Sie Optionen in Erwägung, die das automatische Beenden von Clustern ermöglichen oder für jeden Batchauftrag ein Preismodell bereitstellen.

  • Müssen Sie bei der Batchverarbeitung auch relationale Datenspeicher abfragen, etwa zum Nachschlagen von Referenzdaten? Falls ja, ziehen Sie Optionen in Erwägung, die das Abfragen von externen relationalen Speichern ermöglichen.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede in den Funktionen der Dienste zusammengefasst.

Allgemeine Funktionen

Funktion Fabric Azure Synapse Analytics Azure Databricks
Software-as-a-Service Ja1 Nein No
Verwalteter Dienst No Ja Ja
Relationaler Datenspeicher Ja Ja Ja
Preismodell Kapazitätseinheiten SQL-Pool oder Clusterstunde Azure Databricks-Einheit 2 und Clusterstunde

[1] Zugewiesene Fabric-Kapazität.

[2] Eine Azure Databricks-Einheit ist die Einheit für die Verarbeitungskapazität pro Stunde.

Sonstige Funktionen

Funktion Fabric Azure Synapse Analytics Azure Databricks
Automatische Skalierung Nein Nein Ja
Granularität bei der horizontalen Skalierung Pro Fabric-SKU Pro Cluster oder pro SQL-Pool Pro Cluster
Speicherinternes Zwischenspeichern Nein Ja Ja
Abfragen über externe relationale Speicher Ja Keine Ja
Authentifizierung Microsoft Entra ID SQL oder Microsoft Entra ID Microsoft Entra ID
Überwachung Ja Ja Ja
Sicherheit auf Zeilenebene Ja Ja1 Ja
Unterstützung von Firewalls Ja Ja Ja
Dynamische Datenmaskierung Ja Ja Ja

[1] Nur Prädikate filtern. Weitere Informationen finden Sie unter Sicherheit auf Zeilenebene.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte