Auswählen einer Batchverarbeitungstechnologie in Azure
Big Data-Lösungen bestehen häufig aus eigenständigen Batchverarbeitungsaufgaben, die zur allgemeinen Datenverarbeitungslösung beitragen. Für Workloads, die keinen sofortigen Zugriff auf Insights erfordern, können Sie die Batchverarbeitung verwenden. Die Batchverarbeitung kann die Anforderungen an die Echtzeitverarbeitung erfüllen. Mithilfe der Batchverarbeitung können Sie auch die Komplexität ausgleichen und die Kosten für Ihre gesamte Implementierung reduzieren.
Die grundlegende Anforderung, die diese Batchverarbeitungs-Engines stellen, ist die Skalierung von Berechnungen, um große Datenvolumen zu verarbeiten. Im Gegensatz zur Echtzeitverarbeitung weist die Batchverarbeitung Wartezeiten auf, oder die Zeit zwischen der Datenerfassung und der Berechnung eines Ergebnisses in Minuten oder Stunden:
Auswählen einer Technologie für die Batchverarbeitung
Microsoft bietet mehrere Dienste, die Sie für die Batchverarbeitung verwenden können.
Microsoft Fabric
Microsoft Fabric ist eine All-in-One-Analyse- und Datenplattform für Organisationen. Es handelt sich um ein SaaS-Angebot (Software-as-a-Service), das die Bereitstellung, Verwaltung und Steuerung einer End-to-End-Analyselösung vereinfacht. Fabric verarbeitet die Verschiebung, Verarbeitung, Erfassung und Transformation von Daten sowie die Berichterstellung. Die Funktionen von Fabric, die Sie für die Batchverarbeitung verwenden, umfassen Datentechnik, Data Warehouses, Data Lakehouses und die Verarbeitung mit Apache Spark. Azure Data Factory in Fabric unterstützt auch Lakehouses. Sie können den KI-gesteuerten Copilot aktivieren, um die Entwicklung zu vereinfachen und zu beschleunigen.
Sprachen: R, Python, Java, Scala und SQL
Sicherheit: Verwaltetes virtuelles Netzwerk und rollenbasierte Zugriffssteuerung in OneLake (RBAC)
Primärer Speicher: OneLake mit Tastenkombinationen und Spiegelungsoptionen
Spark: Ein im Voraus aufgefüllter (hydratisierter) Starterpool und ein benutzerdefinierter Spark-Pool mit vordefinierten Knotengrößen
Azure Synapse Analytics
Azure Synapse Analytics ist ein Unternehmensanalysedienst, der sowohl SQL- als auch Spark-Technologien unter einem einzigen Arbeitsbereich zusammenführt. Azure Synapse Analytics vereinfacht Sicherheit, Governance und Verwaltung. Jeder Arbeitsbereich verfügt über integrierte Datenpipelines, mit denen Sie End-to-End-Workflows erstellen können. Sie können auch einen dedizierten SQL-Pool für umfangreiche Analysen bereitstellen – ein serverloser SQL-Endpunkt, den Sie verwenden können, um Daten aus dem Lake direkt abzufragen, und eine Spark-Laufzeit für die verteilte Datenverarbeitung.
Sprachen: Python, Java, Scala und SQL
Sicherheit: Verwaltetes virtuelles Netzwerk, RBAC und Zugriffssteuerungslisten sowie Zugriffssteuerungslisten für Speicher in Azure Data Lake Storage
Primärer Speicher: Data Lake Storage, das auch in andere Quellen integriert werden kann
Spark: Benutzerdefiniertes Spark-Konfigurationssetup mit vordefinierten Knotengrößen
Azure Databricks
Azure Databricks ist eine Apache Spark-basierte Analyseplattform. Es bietet umfangreiche und Premium-Features von Spark, die auf Open-Source-Spark basieren. Azure Databricks ist ein Microsoft-Dienst, der in den Rest der Azure-Dienste integriert ist. Es bietet zusätzliche Konfigurationen für Spark-Clusterbereitstellungen. Und Unity Catalog trägt dazu bei, die Verwaltung von Azure Databricks Spark-Objekten zu vereinfachen.
Sprachen: R, Python, Java, Scala und Spark SQL.
Sicherheit: Benutzerauthentifizierung mit Microsoft Entra ID.
Primärer Speicher: Integrierte Integration in Azure Blob Storage, Azure Data Lake Storage, Azure Synapse Analytics und andere Dienste. Weitere Informationen finden Sie unter Datenquellen.
Weitere Vorteile sind:
Webbasierte Notebooks für Zusammenarbeit und das Durchsuchen von Daten
Schnellere Startzeiten für Cluster, automatische Beendigung und automatische Skalierung.
Unterstützung für GPU-fähige Cluster.
Wichtige Auswahlkriterien
Stellen Sie sich die folgenden Fragen, wenn Sie Ihre Technologie für die Batchverarbeitung auswählen:
Möchten Sie einen verwalteten Dienst, oder möchten Sie Ihre eigenen Server verwalten?
Möchten Sie Batchverarbeitungslogik deklarativ oder imperativ erstellen?
Führen Sie Batchaufträge schubweise aus? Falls ja, ziehen Sie Optionen in Erwägung, die das automatische Beenden von Clustern ermöglichen oder für jeden Batchauftrag ein Preismodell bereitstellen.
Müssen Sie bei der Batchverarbeitung auch relationale Datenspeicher abfragen, etwa zum Nachschlagen von Referenzdaten? Falls ja, ziehen Sie Optionen in Erwägung, die das Abfragen von externen relationalen Speichern ermöglichen.
Funktionsmatrix
In den folgenden Tabellen sind die Hauptunterschiede in den Funktionen der Dienste zusammengefasst.
Allgemeine Funktionen
Funktion | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software-as-a-Service | Ja1 | Nein | No |
Verwalteter Dienst | No | Ja | Ja |
Relationaler Datenspeicher | Ja | Ja | Ja |
Preismodell | Kapazitätseinheiten | SQL-Pool oder Clusterstunde | Azure Databricks-Einheit 2 und Clusterstunde |
[1] Zugewiesene Fabric-Kapazität.
[2] Eine Azure Databricks-Einheit ist die Einheit für die Verarbeitungskapazität pro Stunde.
Sonstige Funktionen
Funktion | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Automatische Skalierung | Nein | Nein | Ja |
Granularität bei der horizontalen Skalierung | Pro Fabric-SKU | Pro Cluster oder pro SQL-Pool | Pro Cluster |
Speicherinternes Zwischenspeichern | Nein | Ja | Ja |
Abfragen über externe relationale Speicher | Ja | Keine | Ja |
Authentifizierung | Microsoft Entra ID | SQL oder Microsoft Entra ID | Microsoft Entra ID |
Überwachung | Ja | Ja | Ja |
Sicherheit auf Zeilenebene | Ja | Ja1 | Ja |
Unterstützung von Firewalls | Ja | Ja | Ja |
Dynamische Datenmaskierung | Ja | Ja | Ja |
[1] Nur Prädikate filtern. Weitere Informationen finden Sie unter Sicherheit auf Zeilenebene.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautoren:
- Zoiner Tejada | CEO und Architekt
- Pratima Valavala | Principal Solutions Architect
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.
Nächste Schritte
- Was ist Fabric?
- Entscheidungsleitfaden zu Fabric
- Training: Einführung in Azure Synapse Analytics
- Was ist Azure HDInsight?
- Was ist Azure Databricks?