Välj en batchbearbetningsteknik i Azure
Stordatalösningar består ofta av diskreta batchbearbetningsuppgifter som bidrar till den övergripande databehandlingslösningen. Du kan använda batchbearbetning för arbetsbelastningar som inte kräver omedelbar åtkomst till insikter. Batchbearbetning kan komplettera bearbetningskraven i realtid. Du kan också använda batchbearbetning för att balansera komplexitet och minska kostnaderna för din övergripande implementering.
Det grundläggande kravet för batchbearbetningsmotorer är att skala ut beräkningar för att hantera en stor mängd data. Till skillnad från realtidsbearbetning har batchbearbetning svarstider, eller tiden mellan datainmatning och databehandling, ett resultat av minuter eller timmar.
Välj en teknik för batchbearbetning
Microsoft erbjuder flera tjänster som du kan använda för batchbearbetning.
Microsoft Fabric
Microsoft Fabric är en allt-i-ett-analys- och dataplattform för organisationer. Det är ett erbjudande för programvara som en tjänst som förenklar hur du etablerar, hanterar och styr en analyslösning från slutpunkt till slutpunkt. Fabric hanterar dataförflyttning, bearbetning, inmatning, transformering och rapportering. Infrastrukturfunktioner som du använder för batchbearbetning omfattar datateknik, informationslager, lakehouses och Apache Spark-bearbetning. Azure Data Factory i Fabric har också stöd för lakehouses. För att förenkla och påskynda utvecklingen kan du aktivera AI-driven Copilot.
Språk: R, Python, Java, Scala och SQL
Säkerhet: Hanterat virtuellt nätverk och rollbaserad åtkomstkontroll i OneLake (RBAC)
Primär lagring: OneLake, som har genvägar och speglingsalternativ
Spark: En föruttorkad startpool och en anpassad Spark-pool med fördefinierade nodstorlekar
Azure Synapse Analytics
Azure Synapse Analytics är en företagsanalystjänst som samlar både SQL- och Spark-tekniker under en enda konstruktion av en arbetsyta. Azure Synapse Analytics förenklar säkerhet, styrning och hantering. Varje arbetsyta har integrerade datapipelines som du kan använda för att skapa arbetsflöden från slutpunkt till slutpunkt. Du kan också etablera en dedikerad SQL-pool för storskalig analys, en serverlös SQL-slutpunkt som du kan använda för att fråga sjön direkt och en Spark-körning för distribuerad databearbetning.
Språk: Python, Java, Scala och SQL
Säkerhet: Hanterat virtuellt nätverk, RBAC och åtkomstkontroll samt listor över åtkomstkontroll för lagring i Azure Data Lake Storage
Primär lagring: Data Lake Storage och integreras även med andra källor
Spark: Konfigurationskonfiguration för Anpassad Spark med fördefinierade nodstorlekar
Azure Databricks
Azure Databricks är en Spark-baserad analysplattform. Den har omfattande och premium Spark-funktioner som bygger på Spark med öppen källkod. Azure Databricks är en Microsoft-tjänst som integreras med resten av Azure-tjänsterna. Den har extra konfigurationer för Spark-klusterdistributioner. Och Unity Catalog hjälper till att förenkla styrningen av Azure Databricks Spark-objekt.
Språk: R, Python, Java, Scala och Spark SQL.
Säkerhet: Användarautentisering med Microsoft Entra-ID.
Primär lagring: Inbyggd integrering med Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics och andra tjänster. Mer information finns i Datakällor.
Andra fördelar är:
Webbaserade notebook-filer för samarbete och datautforskning.
Snabba starttider för kluster, automatisk avslutning och automatisk skalning.
Stöd för GPU-aktiverade kluster.
Kriterier för nyckelval
Tänk på följande frågor om du vill välja din teknik för batchbearbetning:
Vill du ha en hanterad tjänst eller vill du hantera dina egna servrar?
Vill du skapa batchbearbetningslogik deklarativt eller imperativt?
Utför du batchbearbetning i bursts? Om ja kan du överväga alternativ som ger möjlighet att automatiskt avsluta ett kluster eller som har prismodeller för varje batchjobb.
Behöver du fråga relationsdatalager tillsammans med batchbearbetningen, till exempel för att söka efter referensdata? Om ja kan du överväga alternativ som ger möjlighet att köra frågor mot externa relationslager.
Kapacitetsmatris
I följande tabeller sammanfattas viktiga skillnader i funktioner mellan tjänster.
Allmänna funktioner
Kapacitet | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Programvara som en tjänst | Ja1 | No | Nej |
Hanterad tjänst | Nej | Ja | Ja |
Relationsdatalager | Ja | Ja | Ja |
Prismodell | Kapacitetsenheter | SQL-pool eller klustertimmes | Azure Databricks enhet 2 och klustertimmes |
[1] Tilldelad infrastrukturkapacitet.
[2] En Azure Databricks-enhet är bearbetningsfunktionen per timme.
Övriga funktioner
Kapacitet | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Automatisk skalning | Nej | Nej | Ja |
Utskalningskornighet | Per infrastrukturresurs-SKU | Per kluster eller per SQL-pool | Per kluster |
Minnesintern cachelagring av data | Nej | Ja | Ja |
Fråga från externa relationslager | Ja | No | Ja |
Autentisering | Microsoft Entra ID | SQL- eller Microsoft Entra-ID | Microsoft Entra ID |
Granskning | Ja | Ja | Ja |
Säkerhet på radnivå | Ja | Ja 1 | Ja |
Stöder brandväggar | Ja | Ja | Ja |
Dynamisk datamaskning | Ja | Ja | Ja |
[1] Endast filterpredikat. Mer information finns i Säkerhet på radnivå.
Deltagare
Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.
Huvudsakliga författare:
- Zoiner Tejada | VD och arkitekt
- Pratima Valavala | Principal Solutions Architect
Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.
Nästa steg
- Vad är Fabric?
- Beslutsguide för infrastrukturresurser
- Utbildning: Introduktion till Azure Synapse Analytics
- Vad är Azure HDInsight?
- Vad är Azure Databricks?