Een batchverwerkingstechnologie kiezen in Azure
Big data-oplossingen bestaan vaak uit afzonderlijke batchverwerkingstaken die bijdragen aan de algehele oplossing voor gegevensverwerking. U kunt batchverwerking gebruiken voor workloads waarvoor geen directe toegang tot inzichten is vereist. Batchverwerking kan een aanvulling zijn op realtime verwerkingsvereisten. U kunt batchverwerking ook gebruiken om de complexiteit te verdelen en de kosten voor uw algehele implementatie te verlagen.
De fundamentele vereiste van batchverwerkingsengines is het uitschalen van berekeningen voor het verwerken van een grote hoeveelheid gegevens. In tegenstelling tot realtime verwerking heeft batchverwerking latenties of de tijd tussen gegevensopname en het berekenen van een resultaat, van minuten of uren.
Een technologie kiezen voor batchverwerking
Microsoft biedt verschillende services die u kunt gebruiken om batchverwerking uit te voeren.
Microsoft Fabric
Microsoft Fabric is een alles-in-één analyse- en gegevensplatform voor organisaties. Het is een software als een serviceaanbieding die vereenvoudigt hoe u een end-to-end analyseoplossing inricht, beheert en beheert. Fabric verwerkt gegevensverplaatsing, verwerking, opname, transformatie en rapportage. Infrastructuurfuncties die u gebruikt voor batchverwerking zijn onder andere data engineering, datawarehouses, lakehouses en Apache Spark-verwerking. Azure Data Factory in Fabric ondersteunt ook lakehouses. Om de ontwikkeling te vereenvoudigen en te versnellen, kunt u AI-gestuurde Copilot inschakelen.
Talen: R, Python, Java, Scala en SQL
Beveiliging: Beheerd virtueel netwerk en op rollen gebaseerd toegangsbeheer van OneLake (RBAC)
Primaire opslag: OneLake, met snelkoppelingen en spiegelingsopties
Spark: Een vooraf gehydrateerde starterspool en een aangepaste Spark-pool met vooraf gedefinieerde knooppuntgrootten
Azure Synapse Analytics
Azure Synapse Analytics is een enterprise Analytics-service die zowel SQL- als Spark-technologieën samenbrengt in één constructie van een werkruimte. Azure Synapse Analytics vereenvoudigt beveiliging, governance en beheer. Elke werkruimte heeft geïntegreerde gegevenspijplijnen die u kunt gebruiken om end-to-end-werkstromen te maken. U kunt ook een toegewezen SQL-pool inrichten voor grootschalige analyses, een serverloos SQL-eindpunt dat u kunt gebruiken om rechtstreeks een query uit te voeren op het lake en een Spark-runtime voor gedistribueerde gegevensverwerking.
Talen: Python, Java, Scala en SQL
Beveiliging: Beheerd virtueel netwerk, RBAC en toegangsbeheer en lijsten voor toegangsbeheer voor opslag in Azure Data Lake Storage
Primaire opslag: Data Lake Storage en kan ook worden geïntegreerd met andere bronnen
Spark: Aangepaste Configuratie van Spark met vooraf gedefinieerde knooppuntgrootten
Azure Databricks
Azure Databricks is een op Spark gebaseerd analyseplatform. Het bevat uitgebreide en premium Spark-functies die zijn gebouwd op opensource Spark. Azure Databricks is een Microsoft-service die kan worden geïntegreerd met de rest van de Azure-services. Het bevat extra configuraties voor Spark-clusterimplementaties. En Unity Catalog vereenvoudigt het beheer van Azure Databricks Spark-objecten.
Talen: R, Python, Java, Scala en Spark SQL.
Beveiliging: Gebruikersverificatie met Microsoft Entra-id.
Primaire opslag: ingebouwde integratie met Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics en andere services. Zie Gegevensbronnen voor meer informatie.
Andere voordelen zijn:
Snelle begintijden van het cluster, automatische beëindiging en automatisch schalen.
Ondersteuning voor clusters met GPU-functionaliteit.
Criteria voor sleutelselectie
Als u uw technologie voor batchverwerking wilt kiezen, moet u rekening houden met de volgende vragen:
Wilt u een beheerde service of wilt u uw eigen servers beheren?
Wilt u declaratief of imperatief batchverwerkingslogica ontwerpen?
Voert u batchverwerking uit in bursts? Zo ja, overweeg dan opties die de mogelijkheid bieden om automatisch een cluster te beëindigen of die prijsmodellen hebben voor elke batchtaak.
Moet u query's uitvoeren op relationele gegevensarchieven samen met uw batchverwerking, bijvoorbeeld om referentiegegevens op te zoeken? Zo ja, overweeg dan opties die de mogelijkheid bieden om query's uit te voeren op externe relationele winkels.
Mogelijkheidsmatrix
De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden tussen services.
Algemene mogelijkheden
Mogelijkheid | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software-as-a-Service | Ja1 | No | Nr. |
Beheerde service | Nr. | Ja | Ja |
Relationele gegevensopslag | Ja | Ja | Ja |
Prijsmodel | Capaciteitseenheden | SQL-pool of -clusteruur | Azure Databricks-eenheid 2 en clusteruur |
[1] Toegewezen infrastructuurcapaciteit.
[2] Een Azure Databricks-eenheid is de verwerkingsmogelijkheid per uur.
Andere mogelijkheden
Mogelijkheid | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Automatisch schalen | Nee | No | Ja |
Granulariteit uitschalen | Per fabric-SKU | Per cluster of per SQL-pool | Per cluster |
In-memory caching van gegevens | Nr. | Ja | Ja |
Query uitvoeren vanuit externe relationele winkels | Ja | No | Ja |
Verificatie | Microsoft Entra ID | SQL- of Microsoft Entra-id | Microsoft Entra ID |
Controle | Ja | Ja | Ja |
Beveiliging op rijniveau | Ja | Ja 1 | Ja |
Ondersteunt firewalls | Ja | Ja | Ja |
Dynamische gegevensmaskering | Ja | Ja | Ja |
[1] Filterpredicaten alleen. Zie Beveiliging op rijniveau voor meer informatie.
Medewerkers
Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.
Belangrijkste auteurs:
- Zoiner Tejada | CEO en architect
- Pratima Valavala | Principal Solutions Architect
Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.
Volgende stappen
- Wat is Fabric?
- Handleiding voor beslissingen over fabric
- Training: Inleiding tot Azure Synapse Analytics
- Wat is Azure HDInsight?
- Wat is Azure Databricks?