Stordataanalys med säkerhet i företagsklass med Azure Synapse

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Lösningsidéer

Den här artikeln är en lösningsidé. Om du vill att vi ska utöka innehållet med mer information, till exempel potentiella användningsfall, alternativa tjänster, implementeringsöverväganden eller prisvägledning, kan du meddela oss genom att ge GitHub-feedback.

Lösningen som beskrivs i den här artikeln visar hur du använder Azure Synapse Analytics för att skapa en modern dataplattform för att mata in, bearbeta, lagra, hantera och visualisera data från olika källor.

Arkitektur

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Ladda ned en Visio-fil med den här arkitekturen.

Dataflöde

Data flödar genom lösningen på följande sätt:

  1. Synapse-pipelines kopierar aktiviteter för att mata in rådata från externa relationsdatalager, halvstrukturerade data som loggar, flata filer och xml och andra källsystem. Dessa inmatade data lagras sedan på en Azure Data Lake Storage Gen2-plats. Med hjälp av en lokalt installerad integrationskörning kan du också hantera och köra kopieringsaktiviteter mellan ett datalager i din lokala miljö och molnet.

  2. Azure Data Lake Storage Gen2 tillhandahåller säker lagring.

    • Om du använder en brandvägg för att begränsa åtkomsten till lagringskontot till betrodda Azure-tjänster rekommenderar vi att du begränsar sårbarheten för externa attacker.

    • Privata slutpunkter för dina Azure Storage-konton gör det möjligt för klienter i det virtuella nätverket (VNet) att på ett säkert sätt komma åt data via en Privat länk. Den privata slutpunkten använder en IP-adress från VNet-adressutrymmet för lagringskontotjänsten. Nätverkstrafiken mellan klienterna på det virtuella nätverket och lagringskontot passerar över det virtuella nätverket och en privat länk i Microsofts stamnätverk, vilket eliminerar exponeringen för det offentliga Internet.

  3. Data krypteras i vila när de matas in i datasjön. Genom att använda dina egna kundhanterade nycklar kan du skydda krypteringsnycklarna ytterligare och öka flexibiliteten när du hanterar åtkomstkontroller.

  4. Data matas in med hjälp av Synapse-pipelines och bearbetas stegvis med hjälp av Synapse Spark-poolen och dess Data Lake-funktioner. Data lagras i Azure Storage-kontot med hjälp av stegvisa Azure Data Lake Storage Gen 2-kataloger. Dessa steg är:

    1. Synapse-pipelines kopierar aktiviteter som ursprungligen matar in data från källsystemen. Dessa inmatade data lagras i dess rådataformat med hjälp av datasjöns Brons-katalog .

    2. Synapse Spark-poolen kör sedan datakvalitetsregler för att rensa rådata. Dessa berikade data lagras sedan i datasjöns Silver-katalog .

    3. Efter rensningsprocessen tillämpar Spark-poolen all nödvändig normalisering, datatransformeringar och affärsregler på data i Silver-katalogen. Dessa transformerade data lagras sedan i datasjöns Gold-katalog .

  5. Synapse Apache Spark till Synapse SQL-anslutningsappen skickar normaliserade data till Synapse SQL-poolen för förbrukning av underordnade program och rapporteringstjänster som Power BI. Den här anslutningsappen är utformad för optimal överföring av data mellan de serverlösa Apache Spark-poolerna och SQL-poolerna på Azure Synapse Analytics-arbetsytan.

  6. Power BI-tjänst använder DirectQuery-läge för att på ett säkert sätt hämta data från Synapse SQL-poolen. En datagateway som är installerad på en virtuell dator på det privata virtuella nätverket fungerar som en anslutningsplattform mellan Power BI-tjänst och Synapse SQL-poolen med hjälp av privat slutpunkt i samma virtuella nätverk för att ansluta på ett säkert sätt.

  7. Externa program kan komma åt data från Synapse-serverlösa pooler eller dedikerade SQL-pooler genom att komma åt lämpliga privata slutpunkter som är anslutna till det virtuella nätverket.

I den här exempellösningen används flera Azure-tjänster och funktioner:

Komponenter

Information om scenario

Azure Synapse Analytics sammanför dataintegrering, informationslager för företag och stordataanalys som hjälper dig att skapa en modern dataplattform som kan hantera de vanligaste datautmaningarna som stora organisationer står inför. Med Azure Virtual Network kan du skapa ett eget privat nätverk i det offentliga Azure-molnet och det hanterade nätverket, och med Azure Private Endpoint kan du på ett säkert sätt integrera hanterade molntjänster i dessa privata nätverk.

Potentiella användningsfall

Lösningen som beskrivs i den här artikeln visar hur du kombinerar dessa tekniker för att skapa en modern dataplattform som kan mata in, bearbeta, lagra, hantera och visualisera data från olika källor, både strukturerade och halvstrukturerade, samtidigt som de uppfyller de höga säkerhetsstandarder som din organisation förväntar sig. Detta omfattar stöd för vanliga krav, till exempel:

  • Skydda datakällor. Datakällor i det lokala företagsnätverket eller i det virtuella nätverket skyddas bakom en brandvägg. Dessa resurser kan nås på ett säkert sätt genom att installera en lokalt installerad integrationskörning på en resurs som finns lokalt eller i de virtuella nätverken.

  • Autentisering och auktorisering med hanterade identiteter. Kommunikation mellan Azure-tjänster kan skyddas med hanterade identiteter, vilket ger en identitet som program kan använda när de ansluter till resurser som stöder Microsoft Entra-autentisering. I det här exemplet använder Azure Synapse den hanterade identiteten för att integrera pipelines.

  • Privata slutpunkter som upprättar en privat länk till Azure-resurser. Azure Synapse tillhandahåller fullständigt hanterade privata slutpunktsfunktioner för tjänster på Synapse-arbetsytan (till exempel Azure Storage eller Azure Cosmos DB). Andra Azure-resurser som Azure-program, Microsoft Power BI och Azure Synapse-tjänsten skyddas med privata slutpunkter som är integrerade i exempellösningens virtuella nätverk. Nätverkstrafik mellan ditt privata nätverk och Synapse-poolerna använder Private Link för att flytta trafik över Microsofts stamnätverk, vilket eliminerar exponeringen för det offentliga Internet.

  • Kryptera data under överföring. Data krypteras under överföring eftersom alla dataöverföringar sker via säker kanal HTTPS och TLS via TCP för att förhindra man-in-the-middle-attacker under kommunikation med Azure-tjänster, vilket säkerställer säker förflyttning av privata data från slutpunkt till slutpunkt.

  • Kryptera vilande data. Transparent datakryptering i Azure Synapse Analytics hjälper till att skydda mot skadlig aktivitet genom att utföra realtidskryptering och dekryptering av dina data som lagras på Synapse-arbetsytan. Azure Storage krypterar även alla data i ett lagringskonto i vila. Som standard krypteras data med Microsoft-hanterade nycklar, men du kan hantera dina egna nycklar om du behöver ytterligare kontroll över kryptering.

Distribuera det här scenariot

Du måste ha ett befintligt Azure-konto. Om du inte har någon Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.

Azure Resource Manager-mallarna, som du behöver distribuera de komponenter som beskrivs i den här arkitekturen , är tillgängliga på GitHub-lagringsplatsen . Dessa mallar distribuerar alla tjänster som visas i arkitekturdiagrammet förutom: Power BI Data Gateway, lokalt installerad integrationskörning och Azure Key Vault för kundhanterade nycklar.

Det är upp till användaren att skapa data lake-mappstrukturen och azure Synapse Analytics-integreringspipelines som krävs för att ansluta till datakällorna.

Distribuera ARM-mallen direkt genom att klicka på den här knappen:

Deploy to Azure

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Nästa steg

Om du vill lära dig hur du ytterligare utvecklar den här metoden kan du lära dig grunderna i Azure Synapse Analytics genom att slutföra följande självstudier:

Se de här artiklarna när du planerar och distribuerar lösningar med Hjälp av Azure Synapse Analytics: