Dela via


Välj en batchbearbetningsteknik i Azure

Stordatalösningar består ofta av diskreta batchbearbetningsuppgifter som bidrar till den övergripande databehandlingslösningen. Du kan använda batchbearbetning för arbetsbelastningar som inte kräver omedelbar åtkomst till insikter. Batchbearbetning kan komplettera bearbetningskraven i realtid. Du kan också använda batchbearbetning för att balansera komplexitet och minska kostnaderna för din övergripande implementering.

Det grundläggande kravet för batchbearbetningsmotorer är att skala ut beräkningar för att hantera en stor mängd data. Till skillnad från realtidsbearbetning har batchbearbetning svarstider, eller tiden mellan datainmatning och databehandling, ett resultat av minuter eller timmar.

Välj en teknik för batchbearbetning

Microsoft erbjuder flera tjänster som du kan använda för batchbearbetning.

Microsoft Fabric

Microsoft Fabric är en allt-i-ett-analys- och dataplattform för organisationer. Det är ett erbjudande för programvara som en tjänst som förenklar hur du etablerar, hanterar och styr en analyslösning från slutpunkt till slutpunkt. Fabric hanterar dataförflyttning, bearbetning, inmatning, transformering och rapportering. Infrastrukturfunktioner som du använder för batchbearbetning omfattar datateknik, informationslager, lakehouses och Apache Spark-bearbetning. Azure Data Factory i Fabric har också stöd för lakehouses. För att förenkla och påskynda utvecklingen kan du aktivera AI-driven Copilot.

  • Språk: R, Python, Java, Scala och SQL

  • Säkerhet: Hanterat virtuellt nätverk och rollbaserad åtkomstkontroll i OneLake (RBAC)

  • Primär lagring: OneLake, som har genvägar och speglingsalternativ

  • Spark: En föruttorkad startpool och en anpassad Spark-pool med fördefinierade nodstorlekar

Azure Synapse Analytics

Azure Synapse Analytics är en företagsanalystjänst som samlar både SQL- och Spark-tekniker under en enda konstruktion av en arbetsyta. Azure Synapse Analytics förenklar säkerhet, styrning och hantering. Varje arbetsyta har integrerade datapipelines som du kan använda för att skapa arbetsflöden från slutpunkt till slutpunkt. Du kan också etablera en dedikerad SQL-pool för storskalig analys, en serverlös SQL-slutpunkt som du kan använda för att fråga sjön direkt och en Spark-körning för distribuerad databearbetning.

  • Språk: Python, Java, Scala och SQL

  • Säkerhet: Hanterat virtuellt nätverk, RBAC och åtkomstkontroll samt listor över åtkomstkontroll för lagring i Azure Data Lake Storage

  • Primär lagring: Data Lake Storage och integreras även med andra källor

  • Spark: Konfigurationskonfiguration för Anpassad Spark med fördefinierade nodstorlekar

Azure Databricks

Azure Databricks är en Spark-baserad analysplattform. Den har omfattande och premium Spark-funktioner som bygger på Spark med öppen källkod. Azure Databricks är en Microsoft-tjänst som integreras med resten av Azure-tjänsterna. Den har extra konfigurationer för Spark-klusterdistributioner. Och Unity Catalog hjälper till att förenkla styrningen av Azure Databricks Spark-objekt.

  • Språk: R, Python, Java, Scala och Spark SQL.

  • Säkerhet: Användarautentisering med Microsoft Entra-ID.

  • Primär lagring: Inbyggd integrering med Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics och andra tjänster. Mer information finns i Datakällor.

Andra fördelar är:

Kriterier för nyckelval

Tänk på följande frågor om du vill välja din teknik för batchbearbetning:

  • Vill du ha en hanterad tjänst eller vill du hantera dina egna servrar?

  • Vill du skapa batchbearbetningslogik deklarativt eller imperativt?

  • Utför du batchbearbetning i bursts? Om ja kan du överväga alternativ som ger möjlighet att automatiskt avsluta ett kluster eller som har prismodeller för varje batchjobb.

  • Behöver du fråga relationsdatalager tillsammans med batchbearbetningen, till exempel för att söka efter referensdata? Om ja kan du överväga alternativ som ger möjlighet att köra frågor mot externa relationslager.

Kapacitetsmatris

I följande tabeller sammanfattas viktiga skillnader i funktioner mellan tjänster.

Allmänna funktioner

Kapacitet Fabric Azure Synapse Analytics Azure Databricks
Programvara som en tjänst Ja1 No Nej
Hanterad tjänst Nej Ja Ja
Relationsdatalager Ja Ja Ja
Prismodell Kapacitetsenheter SQL-pool eller klustertimmes Azure Databricks enhet 2 och klustertimmes

[1] Tilldelad infrastrukturkapacitet.

[2] En Azure Databricks-enhet är bearbetningsfunktionen per timme.

Övriga funktioner

Kapacitet Fabric Azure Synapse Analytics Azure Databricks
Automatisk skalning Nej Nej Ja
Utskalningskornighet Per infrastrukturresurs-SKU Per kluster eller per SQL-pool Per kluster
Minnesintern cachelagring av data Nej Ja Ja
Fråga från externa relationslager Ja No Ja
Autentisering Microsoft Entra ID SQL- eller Microsoft Entra-ID Microsoft Entra ID
Granskning Ja Ja Ja
Säkerhet på radnivå Ja Ja 1 Ja
Stöder brandväggar Ja Ja Ja
Dynamisk datamaskning Ja Ja Ja

[1] Endast filterpredikat. Mer information finns i Säkerhet på radnivå.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudsakliga författare:

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg