Een batchverwerkingstechnologie kiezen in Azure

Artikel
08/01/2024

Big data-oplossingen bestaan vaak uit afzonderlijke batchverwerkingstaken die bijdragen aan de algehele oplossing voor gegevensverwerking. U kunt batchverwerking gebruiken voor workloads waarvoor geen directe toegang tot inzichten is vereist. Batchverwerking kan een aanvulling zijn op realtime verwerkingsvereisten. U kunt batchverwerking ook gebruiken om de complexiteit te verdelen en de kosten voor uw algehele implementatie te verlagen.

De fundamentele vereiste van batchverwerkingsengines is het uitschalen van berekeningen voor het verwerken van een grote hoeveelheid gegevens. In tegenstelling tot realtime verwerking heeft batchverwerking latenties of de tijd tussen gegevensopname en het berekenen van een resultaat, van minuten of uren.

Een technologie kiezen voor batchverwerking

Microsoft biedt verschillende services die u kunt gebruiken om batchverwerking uit te voeren.

Microsoft Fabric

Microsoft Fabric is een alles-in-één analyse- en gegevensplatform voor organisaties. Het is een software als een serviceaanbieding die vereenvoudigt hoe u een end-to-end analyseoplossing inricht, beheert en beheert. Fabric verwerkt gegevensverplaatsing, verwerking, opname, transformatie en rapportage. Infrastructuurfuncties die u gebruikt voor batchverwerking zijn onder andere data engineering, datawarehouses, lakehouses en Apache Spark-verwerking. Azure Data Factory in Fabric ondersteunt ook lakehouses. Om de ontwikkeling te vereenvoudigen en te versnellen, kunt u AI-gestuurde Copilot inschakelen.

Talen: R, Python, Java, Scala en SQL
Beveiliging: Beheerd virtueel netwerk en op rollen gebaseerd toegangsbeheer van OneLake (RBAC)
Primaire opslag: OneLake, met snelkoppelingen en spiegelingsopties
Spark: Een vooraf gehydrateerde starterspool en een aangepaste Spark-pool met vooraf gedefinieerde knooppuntgrootten

Azure Synapse Analytics

Azure Synapse Analytics is een enterprise Analytics-service die zowel SQL- als Spark-technologieën samenbrengt in één constructie van een werkruimte. Azure Synapse Analytics vereenvoudigt beveiliging, governance en beheer. Elke werkruimte heeft geïntegreerde gegevenspijplijnen die u kunt gebruiken om end-to-end-werkstromen te maken. U kunt ook een toegewezen SQL-pool inrichten voor grootschalige analyses, een serverloos SQL-eindpunt dat u kunt gebruiken om rechtstreeks een query uit te voeren op het lake en een Spark-runtime voor gedistribueerde gegevensverwerking.

Talen: Python, Java, Scala en SQL
Beveiliging: Beheerd virtueel netwerk, RBAC en toegangsbeheer en lijsten voor toegangsbeheer voor opslag in Azure Data Lake Storage
Primaire opslag: Data Lake Storage en kan ook worden geïntegreerd met andere bronnen
Spark: Aangepaste Configuratie van Spark met vooraf gedefinieerde knooppuntgrootten

Azure Databricks

Azure Databricks is een op Spark gebaseerd analyseplatform. Het bevat uitgebreide en premium Spark-functies die zijn gebouwd op opensource Spark. Azure Databricks is een Microsoft-service die kan worden geïntegreerd met de rest van de Azure-services. Het bevat extra configuraties voor Spark-clusterimplementaties. En Unity Catalog vereenvoudigt het beheer van Azure Databricks Spark-objecten.

Talen: R, Python, Java, Scala en Spark SQL.
Beveiliging: Gebruikersverificatie met Microsoft Entra-id.
Primaire opslag: ingebouwde integratie met Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics en andere services. Zie Gegevensbronnen voor meer informatie.

Andere voordelen zijn:

Webnotitieblokken voor samenwerking en gegevensverkenning.
Snelle begintijden van het cluster, automatische beëindiging en automatisch schalen.
Ondersteuning voor clusters met GPU-functionaliteit.

Criteria voor sleutelselectie

Als u uw technologie voor batchverwerking wilt kiezen, moet u rekening houden met de volgende vragen:

Wilt u een beheerde service of wilt u uw eigen servers beheren?
Wilt u declaratief of imperatief batchverwerkingslogica ontwerpen?
Voert u batchverwerking uit in bursts? Zo ja, overweeg dan opties die de mogelijkheid bieden om automatisch een cluster te beëindigen of die prijsmodellen hebben voor elke batchtaak.
Moet u query's uitvoeren op relationele gegevensarchieven samen met uw batchverwerking, bijvoorbeeld om referentiegegevens op te zoeken? Zo ja, overweeg dan opties die de mogelijkheid bieden om query's uit te voeren op externe relationele winkels.

Mogelijkheidsmatrix

De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden tussen services.

Algemene mogelijkheden

Mogelijkheid	Fabric	Azure Synapse Analytics	Azure Databricks
Software-as-a-Service	Ja¹	No	Nr.
Beheerde service	Nr.	Ja	Ja
Relationele gegevensopslag	Ja	Ja	Ja
Prijsmodel	Capaciteitseenheden	SQL-pool of -clusteruur	Azure Databricks-eenheid ² en clusteruur

[1] Toegewezen infrastructuurcapaciteit.

[2] Een Azure Databricks-eenheid is de verwerkingsmogelijkheid per uur.

Andere mogelijkheden

Mogelijkheid	Fabric	Azure Synapse Analytics	Azure Databricks
Automatisch schalen	Nee	No	Ja
Granulariteit uitschalen	Per fabric-SKU	Per cluster of per SQL-pool	Per cluster
In-memory caching van gegevens	Nr.	Ja	Ja
Query uitvoeren vanuit externe relationele winkels	Ja	No	Ja
Verificatie	Microsoft Entra ID	SQL- of Microsoft Entra-id	Microsoft Entra ID
Controle	Ja	Ja	Ja
Beveiliging op rijniveau	Ja	Ja ¹	Ja
Ondersteunt firewalls	Ja	Ja	Ja
Dynamische gegevensmaskering	Ja	Ja	Ja

[1] Filterpredicaten alleen. Zie Beveiliging op rijniveau voor meer informatie.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Belangrijkste auteurs:

Zoiner Tejada | CEO en architect
Pratima Valavala | Principal Solutions Architect

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Delen via

Een batchverwerkingstechnologie kiezen in Azure

Een technologie kiezen voor batchverwerking

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Criteria voor sleutelselectie

Mogelijkheidsmatrix

Algemene mogelijkheden

Andere mogelijkheden

Medewerkers

Volgende stappen

Feedback

Aanvullende resources

Delen via

Een batchverwerkingstechnologie kiezen in Azure

Een technologie kiezen voor batchverwerking

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Criteria voor sleutelselectie

Mogelijkheidsmatrix

Algemene mogelijkheden

Andere mogelijkheden

Medewerkers

Volgende stappen

Verwante resources

Feedback

Aanvullende resources