Delen via


Een batchverwerkingstechnologie kiezen in Azure

Big data-oplossingen bestaan vaak uit afzonderlijke batchverwerkingstaken die bijdragen aan de algehele oplossing voor gegevensverwerking. U kunt batchverwerking gebruiken voor workloads waarvoor geen directe toegang tot inzichten is vereist. Batchverwerking kan een aanvulling zijn op realtime verwerkingsvereisten. U kunt batchverwerking ook gebruiken om de complexiteit te verdelen en de kosten voor uw algehele implementatie te verlagen.

De fundamentele vereiste van batchverwerkingsengines is het uitschalen van berekeningen voor het verwerken van een grote hoeveelheid gegevens. In tegenstelling tot realtime verwerking heeft batchverwerking latenties of de tijd tussen gegevensopname en het berekenen van een resultaat, van minuten of uren.

Een technologie kiezen voor batchverwerking

Microsoft biedt verschillende services die u kunt gebruiken om batchverwerking uit te voeren.

Microsoft Fabric

Microsoft Fabric is een alles-in-één analyse- en gegevensplatform voor organisaties. Het is een software als een serviceaanbieding die vereenvoudigt hoe u een end-to-end analyseoplossing inricht, beheert en beheert. Fabric verwerkt gegevensverplaatsing, verwerking, opname, transformatie en rapportage. Infrastructuurfuncties die u gebruikt voor batchverwerking zijn onder andere data engineering, datawarehouses, lakehouses en Apache Spark-verwerking. Azure Data Factory in Fabric ondersteunt ook lakehouses. Om de ontwikkeling te vereenvoudigen en te versnellen, kunt u AI-gestuurde Copilot inschakelen.

  • Talen: R, Python, Java, Scala en SQL

  • Beveiliging: Beheerd virtueel netwerk en op rollen gebaseerd toegangsbeheer van OneLake (RBAC)

  • Primaire opslag: OneLake, met snelkoppelingen en spiegelingsopties

  • Spark: Een vooraf gehydrateerde starterspool en een aangepaste Spark-pool met vooraf gedefinieerde knooppuntgrootten

Azure Synapse Analytics

Azure Synapse Analytics is een enterprise Analytics-service die zowel SQL- als Spark-technologieën samenbrengt in één constructie van een werkruimte. Azure Synapse Analytics vereenvoudigt beveiliging, governance en beheer. Elke werkruimte heeft geïntegreerde gegevenspijplijnen die u kunt gebruiken om end-to-end-werkstromen te maken. U kunt ook een toegewezen SQL-pool inrichten voor grootschalige analyses, een serverloos SQL-eindpunt dat u kunt gebruiken om rechtstreeks een query uit te voeren op het lake en een Spark-runtime voor gedistribueerde gegevensverwerking.

  • Talen: Python, Java, Scala en SQL

  • Beveiliging: Beheerd virtueel netwerk, RBAC en toegangsbeheer en lijsten voor toegangsbeheer voor opslag in Azure Data Lake Storage

  • Primaire opslag: Data Lake Storage en kan ook worden geïntegreerd met andere bronnen

  • Spark: Aangepaste Configuratie van Spark met vooraf gedefinieerde knooppuntgrootten

Azure Databricks

Azure Databricks is een op Spark gebaseerd analyseplatform. Het bevat uitgebreide en premium Spark-functies die zijn gebouwd op opensource Spark. Azure Databricks is een Microsoft-service die kan worden geïntegreerd met de rest van de Azure-services. Het bevat extra configuraties voor Spark-clusterimplementaties. En Unity Catalog vereenvoudigt het beheer van Azure Databricks Spark-objecten.

  • Talen: R, Python, Java, Scala en Spark SQL.

  • Beveiliging: Gebruikersverificatie met Microsoft Entra-id.

  • Primaire opslag: ingebouwde integratie met Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics en andere services. Zie Gegevensbronnen voor meer informatie.

Andere voordelen zijn:

  • Webnotitieblokken voor samenwerking en gegevensverkenning.

  • Snelle begintijden van het cluster, automatische beëindiging en automatisch schalen.

  • Ondersteuning voor clusters met GPU-functionaliteit.

Criteria voor sleutelselectie

Als u uw technologie voor batchverwerking wilt kiezen, moet u rekening houden met de volgende vragen:

  • Wilt u een beheerde service of wilt u uw eigen servers beheren?

  • Wilt u declaratief of imperatief batchverwerkingslogica ontwerpen?

  • Voert u batchverwerking uit in bursts? Zo ja, overweeg dan opties die de mogelijkheid bieden om automatisch een cluster te beëindigen of die prijsmodellen hebben voor elke batchtaak.

  • Moet u query's uitvoeren op relationele gegevensarchieven samen met uw batchverwerking, bijvoorbeeld om referentiegegevens op te zoeken? Zo ja, overweeg dan opties die de mogelijkheid bieden om query's uit te voeren op externe relationele winkels.

Mogelijkheidsmatrix

De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden tussen services.

Algemene mogelijkheden

Mogelijkheid Fabric Azure Synapse Analytics Azure Databricks
Software-as-a-Service Ja1 No Nr.
Beheerde service Nr. Ja Ja
Relationele gegevensopslag Ja Ja Ja
Prijsmodel Capaciteitseenheden SQL-pool of -clusteruur Azure Databricks-eenheid 2 en clusteruur

[1] Toegewezen infrastructuurcapaciteit.

[2] Een Azure Databricks-eenheid is de verwerkingsmogelijkheid per uur.

Andere mogelijkheden

Mogelijkheid Fabric Azure Synapse Analytics Azure Databricks
Automatisch schalen Nee No Ja
Granulariteit uitschalen Per fabric-SKU Per cluster of per SQL-pool Per cluster
In-memory caching van gegevens Nr. Ja Ja
Query uitvoeren vanuit externe relationele winkels Ja No Ja
Verificatie Microsoft Entra ID SQL- of Microsoft Entra-id Microsoft Entra ID
Controle Ja Ja Ja
Beveiliging op rijniveau Ja Ja 1 Ja
Ondersteunt firewalls Ja Ja Ja
Dynamische gegevensmaskering Ja Ja Ja

[1] Filterpredicaten alleen. Zie Beveiliging op rijniveau voor meer informatie.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Belangrijkste auteurs:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen