Framgångsmetod för Synapse-implementering: Utvärdera dataintegreringsdesign

Artikel
10/18/2023

Kommentar

Den här artikeln är en del av azure Synapse-implementeringen genom att designa artiklar. En översikt över serien finns i Azure Synapse-implementeringen lyckades avsiktligt.

Azure Synapse Analytics innehåller samma dataintegreringsmotor och funktioner som Azure Data Factory (ADF), så att du kan skapa omfattande ETL-pipelines i stor skala utan att lämna Azure Synapse Analytics.

Image shows the components of Azure Synapse, with the Data Integration component highlighted.

Den här artikeln beskriver hur du utvärderar utformningen av dataintegreringskomponenterna för projektet. Mer specifikt hjälper det dig att avgöra om Azure Synapse-pipelines passar bäst för dina dataintegreringskrav. Tid som investeras i att utvärdera designen före lösningsutvecklingen kan bidra till att eliminera oväntade designändringar som kan påverka projektets tidslinje eller kostnad.

Anpassa gapanalys

Du bör utföra en grundlig analys av din dataintegreringsstrategi. Om du väljer Azure Synapse-pipelines som dataintegreringsverktyg granskar du följande punkter för att säkerställa att de passar bäst för dina dataintegreringskrav och orkestrering. Även om du väljer olika verktyg för dataintegrering bör du fortfarande granska följande punkter för att verifiera att alla viktiga designpunkter har övervägts och att det valda verktyget stöder dina lösningsbehov. Den här informationen bör ha samlats in under din utvärdering som utfördes tidigare i den här metoden.

Granska dina datakällor och mål (mål):
- Kontrollera att käll- och mållager stöds av datalager.
- Om de inte stöds kontrollerar du om du kan använda de utökningsbara alternativen.
Granska utlösande punkter för din dataintegrering och frekvensen:
- Azure Synapse-pipelines stöder schema, rullande fönster och utlösare för lagringshändelser.
- Verifiera det minsta upprepningsintervallet och lagringshändelser som stöds mot dina krav.
Granska de nödvändiga lägena för dataintegrering:
- Schemalagd, periodisk och utlöst batchbearbetning kan effektivt utformas i Azure Synapse-pipelines.
- Om du vill implementera CDC-funktioner (Change Data Capture) använder du produkter från tredje part eller skapar en anpassad lösning.
- Om du vill stödja realtidsströmning använder du Azure Event Hubs, Azure Event Hubs från Apache Kafka eller Azure IoT Hub.
- Om du vill köra SSIS-paket (Microsoft SQL Server Integration Services) kan du lyfta och flytta SSIS-arbetsbelastningar till molnet.
Granska beräkningsdesignen:
- Måste den beräkning som krävs för pipelines vara serverlös eller etablerad?
- Azure Synapse-pipelines stöder båda lägena för integreringskörning (IR): serverlös eller lokalt installerad på en Windows-dator.
- Verifiera portar och brandväggar och proxyinställningar när du använder den lokalt installerade IR:n (etablerad).
Granska säkerhetskrav, nätverks- och brandväggskonfiguration för miljön och jämför dem med konfigurationsdesignen för säkerhet, nätverk och brandvägg:
- Granska hur datakällorna skyddas och nätverkas.
- Granska hur måldatalager skyddas och nätverkas. Azure Synapse-pipelines har olika strategier för dataåtkomst som ger ett säkert sätt att ansluta datalager via privata slutpunkter eller virtuella nätverk.
- Använd Azure Key Vault för att lagra autentiseringsuppgifter när det är tillämpligt.
- Använd ADF för kundhanterad nyckelkryptering (CMK) för autentiseringsuppgifter och lagra dem i den lokala IR:n.
Granska designen för löpande övervakning av alla dataintegreringskomponenter.

Arkitekturöverväganden

När du granskar designen för dataintegrering bör du överväga följande rekommendationer och riktlinjer för att säkerställa att komponenterna för dataintegrering i din lösning ger kontinuerlig driftseffektivitet, prestandaeffektivitet, tillförlitlighet och säkerhet.

Driftsäkerhet

Utvärdera följande punkter för driftskvalitet.

Miljö: När du planerar dina miljöer separerar du dem efter utveckling/test, UAT (user acceptance testing) och produktion. Använd mapporganisationsalternativen för att organisera dina pipelines och datauppsättningar efter affärs-/ETL-jobb för bättre underhåll. Använd anteckningar för att tagga dina pipelines så att du enkelt kan övervaka dem. Skapa återanvändbara pipelines med hjälp av parametrar och iteration och villkorsstyrda aktiviteter.
Övervakning och avisering: Synapse-arbetsytor innehåller Monitor Hub, som har omfattande övervakningsinformation för varje pipelinekörning. Den integreras också med Log Analytics för ytterligare logganalys och aviseringar. Du bör implementera dessa funktioner för att tillhandahålla proaktiva felmeddelanden. Använd även sökvägar vid fel för att implementera anpassad felhantering.
Automatiserad distribution och testning: Azure Synapse-pipelines är inbyggda i Synapse-arbetsytan, så att du kan dra nytta av automatisering och distribution av arbetsytor. Använd ARM-mallar för att minimera manuella aktiviteter när du skapar Synapse-arbetsytor. Integrera även Synapse-arbetsytor med Azure DevOps för att skapa kodversioner och automatisera publicering.

Prestandaeffektivitet

Utvärdera följande punkter för prestandaeffektivitet.

Följ prestandavägledningen och optimeringsfunktionerna när du arbetar med kopieringsaktiviteten.
Välj optimerade anslutningsappar för dataöverföring i stället för allmänna anslutningsappar. Du kan till exempel använda PolyBase i stället för massinfogning när du flyttar data från Azure Data Lake Storage Gen2 (ALDS Gen2) till en dedikerad SQL-pool.
När du skapar en ny Azure IR anger du regionplatsen som automatisk lösning eller väljer samma region som datalager.
För lokalt installerad IR väljer du storleken på den virtuella Azure-datorn (VM) baserat på integreringskraven.
Välj en stabil nätverksanslutning, till exempel Azure ExpressRoute, för snabb och konsekvent bandbredd.

Tillförlitlighet

När du kör en pipeline med hjälp av Azure IR är den serverlös och ger därför återhämtning direkt. Det finns inte mycket för kunder att hantera. Men när en pipeline körs i en lokalt installerad IR rekommenderar vi att du kör den med hjälp av en konfiguration med hög tillgänglighet på virtuella Azure-datorer. Den här konfigurationen säkerställer att integreringspipelines inte bryts även när en virtuell dator kopplas från. Vi rekommenderar också att du använder Azure ExpressRoute för en snabb och tillförlitlig nätverksanslutning mellan lokalt och Azure.

Säkerhet

En säker dataplattform är ett av de viktigaste kraven för varje organisation. Du bör noggrant planera säkerheten för hela plattformen i stället för enskilda komponenter. Här följer några säkerhetsriktlinjer för Azure Synapse-pipelinelösningar.

Skydda dataflytt till molnet med hjälp av privata Azure Synapse-slutpunkter.
Använd Microsoft Entra-hanterade identiteter för autentisering.
Använd rollbaserad åtkomstkontroll i Azure (RBAC) och Synapse RBAC för auktorisering.
Lagra autentiseringsuppgifter, hemligheter och nycklar i Azure Key Vault i stället för i pipelinen. Mer information finns i Använda Azure Key Vault-hemligheter i pipelineaktiviteter.
Anslut till lokala resurser via Azure ExpressRoute eller VPN via privata slutpunkter.
Aktivera alternativen Säker utdata och Säker indata i pipelineaktiviteter när parametrar lagrar hemligheter eller lösenord.

Nästa steg

I nästa artikel i Azure Synapse lyckades med designserien får du lära dig hur du utvärderar din dedikerade SQL-pooldesign för att identifiera problem och verifiera att den uppfyller riktlinjer och krav.

Dela via