Dela via


Översikt över landningszon för datahantering i molnskala

Landningszonen för datahantering är en hanteringsfunktion och är central för analys i molnskala. Den ansvarar för styrningen av din analysplattform.

Diagram över översikt över landningszon för datahantering.

Landningszonen för datahantering är en separat prenumeration som har samma standardtjänster för Azure-landningszoner. Det möjliggör datastyrning av dina data via crawlers, som ansluter till dina datasjöar och polyglotlagring i dina datalandningszoner. Peering för virtuella nätverk ansluter din landningszon för datahantering till dina datalandningszoner och din anslutningsprenumeration.

Använd den här arkitekturen som utgångspunkt. Ladda ned Visio-filen och ändra den så att den passar dina specifika affärs- och tekniska krav när du planerar implementeringen av landningszonen för datahantering.

Kommentar

Polyglot persistence är en lagringsperiod som beskriver ditt val mellan olika datalagrings-/datalagertekniker för att stödja dina olika datatyper och deras lagringsbehov. I grund och botten är polyglotpersistence konceptet att ett program kan använda mer än en kärndatabas eller lagringsteknik.

Viktigt!

Landningszonen för datahantering måste distribueras som en separat prenumeration under en hanteringsgrupp med lämplig styrning. Du kan sedan styra styrningen i hela organisationen. Acceleratorn i Azure-landningszonen visar hur du bör närma dig Azure-landningszoner.

Data Catalog

Resursgrupp: governance-rg

Datakatalogen registrerar och underhåller datainformationen på en central plats och gör den tillgänglig för organisationen. Det säkerställer att företag undviker duplicerade dataprodukter som orsakas av redundant datainmatning av olika projektteam.

Vi rekommenderar att du skapar en datakatalogtjänst för att definiera metadata för de dataprodukter som lagras i datalandningszonerna.

Analys i molnskala är beroende av Microsoft Purview för att registrera företagsdatakällor, klassificera dem, säkerställa datakvalitet och erbjuda säker åtkomst med självbetjäning.

Microsoft Purview är en klientbaserad tjänst och kan kommunicera med varje datalandningszon genom att skapa ett hanterat virtuellt nätverk som distribueras till regionen för dina datalandningszoner. Du kan distribuera Azure Managed Virtual Network Integration Runtimes (IR) i Microsoft Purview Managed Virtual Networks i alla tillgängliga Microsoft Purview-regioner. Därifrån kan IR för det hanterade virtuella nätverket använda privata slutpunkter för att på ett säkert sätt ansluta till och genomsöka de datakällor som stöds. Mer information finns i Använda hanterat virtuellt nätverk med ditt Microsoft Purview-konto. Genom att skapa en hanterad virtuell nätverks-IR i hanterat virtuellt nätverk ser du till att dataintegreringsprocessen är isolerad och säker.

Kommentar

Även om den här dokumentationen främst fokuserar på att använda Microsoft Purview för styrning, kan företag ha investerat i andra produkter, till exempel Alation, Okera eller Collibra. De här lösningarna är prenumerationsbaserade och vi rekommenderar att du distribuerar dessa till landningszonen för datahantering. Tänk på att viss anpassad integrering kan krävas.

Mer information finns i Metodtips för datakatalog och Microsoft Purview-distribution för analys i molnskala.

Hantering av datakvalitet

Resursgrupp: governance-rg2

Fortsätt med din aktuella lösning.

Du bör hantera datakvaliteten så nära datakällan som möjligt så att du undviker kvalitetsproblem som replikeras i din analys- och AI-egendom. Om du flyttar kvalitetsmått och validering till din dataintegrering justeras kvalitetsprocessen med de team som är närmast dina data. De här teamen har den djupaste förståelsen för din datatillgång.

Data härkomst ger också förtroende för datakvalitet, och du bör tillhandahålla den för alla dataprodukter och produkter.

Mer information om datakvalitetshantering finns i Datakvalitet.

Lagringsplats för datamodellering

Resursgrupp: governance-rg2

Du bör samla in och lagra entitetsrelationsmodeller på en central plats i landningszonen för datahantering. Detta ger datakonsumenter en enda plats för att hitta konceptuella diagram.

Många kunder använder ER Studio och iServer för att modellera sina dataprodukter före inmatning.

Hantering av huvuddata

Resursgrupp: governance-rg2

Hanteringskontrollen för huvuddata finns i landningszonen för datahantering. Hantering av huvuddata i datanät innehåller specifika överväganden som du bör ta upp för datanät.

Många huvudlösningar för datahantering integreras fullständigt med Microsoft Entra-ID. Med den här integreringen kan du skydda dina data och tillhandahålla olika vyer för olika användargrupper.

Mer information finns i Huvuddatahanteringssystem.

API-katalog

Resursgrupp: governance-rg2

Dina dataprogramteam över kommer sannolikt att skapa olika API:er för deras dataprogram. Dessa API:er kan vara svåra att identifiera i hela organisationen. Att placera en API-katalog i landningszonen för datahantering kan lösa det här problemet.

En API-katalog kan hjälpa dig att standardisera din dokumentation och erbjuder en plats för internt samarbete om API:er. Det kan också driva förbruknings-, publicerings- och styrningskontroller i hela organisationen.

Datadelning och kontrakt

Resursgrupp: governance-rg2

Analys i molnskala använder Microsoft Entra-berättigandehantering eller Microsoft Purview-principer för att styra åtkomsten till datadelning. Trots detta kanske du fortfarande behöver en lagringsplats för delning och kontrakt. Den här lagringsplatsen är en organisationsfunktion och bör finnas i landningszonen för datahantering.

Dina kontrakt bör ge information om dataverifiering, modeller och säkerhetsprinciper.

Mer information finns i Datakontrakt

Azure Container Registry

Resursgrupp: containers-rg

Din landningszon för datahantering är värd för ett Azure Container Registry. Med Azure Container Registry kan dina dataplattformsåtgärder distribuera standardcontainrar för användning i datavetenskapsprojekt som dina dataprogramteam använder.

Resursgrupp: synapse-link-rg

Azure Synapse Analytics Private Link-hubbar är Azure-resurser som ansluter ditt skyddade nätverk och Azure Synapse Studio-webbupplevelsen. Analys i molnskala ansluter på ett säkert sätt ditt virtuella Azure-nätverk till Azure Synapse Studio med hjälp av privata länkar från dessa hubbar.

Det finns två steg för att ansluta till Azure Synapse Studio med hjälp av privata länkar.

  1. Skapa en Private Link-hubbresurs.
  2. Skapa en privat slutpunkt från ditt virtuella Azure-nätverk till den private link-hubben.

Du kan sedan använda privata slutpunkter för att kommunicera säkert med Azure Synapse Studio. Integrera dessa privata slutpunkter med din DNS-lösning, antingen med din lokala lösning eller med Azure Privat DNS.

Mer information finns i Ansluta till Azure Synapse Studio med privata länkar.

Automation-gränssnitt (valfritt)

Din organisation kan välja att skapa många automatiseringstjänster för att utöka analysfunktionerna i molnskala. Dessa automatiseringstjänster skapar lösningar för överensstämmelse och registrering för ditt analystillstånd.

Om du bestämmer dig för att skapa dessa automationstjänster bör du ha ett användargränssnitt som fungerar som både en datamarknadsplats och en driftkonsol. Det här gränssnittet bör förlita sig på ett underliggande metadatalager som vi tidigare har diskuterat i metadatastandarder.

Din datamarknad eller driftkonsol anropar en mellannivå av mikrotjänster för att underlätta registrering av metadata, säkerhetsetablering, datalivscykel och observerbarhet.

Du kan etablera resursgruppen automationdb-rg som värd för ditt metadatalager.

Viktigt!

Ingen av dessa automationstjänster är produkter, och de illustrerar inte något översiktsobjekt. De visas för att hjälpa dig att överväga vilka objekt som du kanske vill automatisera.

Tjänster

Tjänst Tjänstomfång
Etablering av datalandningszon Den här tjänsten skapar en ny datalandningszon. Det är osannolikt att den har hög användning, men ingår för kompletthet i onboarding-lösningen från slutpunkt till slutpunkt. Mer information finns i Etablera analys i molnskala
Registrering av dataprodukter Den här tjänsten skapar och ändrar resursgrupper som gäller för en registrerad klientorganisation. Den innehåller också funktioner för att uppgradera och degradera SKU:er och för att aktivera och inaktivera resursgrupper för alla registrerade klientorganisationer eller tjänster. Det skapar en ny datalandningszon DevOps. Mer information finns i Etablera analys i molnskala
Åtkomstetablering Den här tjänsten skapar åtkomstpaket, åtkomstprinciper och processen för godkännande av tillgångsåtkomst (manuell eller automatisk) med HJÄLP av SPN/UPN. Det kan också exponera ett API för att tillhandahålla en lista över prenumerationsbegäranden (tillgångar) som användare har skickat under de senaste 90 dagarna. Mer information finns i Dataåtkomsthantering
Dataagnostisk inmatning Den här mikrotjänsten skapar nya datakällor för inmatning till dina datalandningszoner. Det gör du genom att kommunicera med ett Azure Data Factory SQL Database-metaarkiv i varje datalandningszon. Mer information finns i How automated ingestion frameworks support cloud-scale analytics in Azure
Metadata Den här tjänsten exponeras och skapar metadata för plattformen. Mer information finns i Metadatastandarder
Datalivscykel Den här tjänsten ansvarar för att underhålla din datalivscykel baserat på metadata. Det här underhållet kan omfatta flytt av data till kall lagring och borttagning av poster som inte längre behöver behållas. Mer information finns i Datalivscykelhantering
Registrering av datadomäner GÄLLER ENDAST FÖR DATA MESH. Den här tjänsten samlar in metadata som rör nya domäner och registrerar de nya domänerna efter behov. Den kan också skapa, uppdatera, aktivera och inaktivera alla domäner eller tjänstrader som du kan bygga in i en mikrotjänst. Mer information finns i Etablera analys i molnskala

Datastandardisering

Även om det inte är en specifik funktion eller produkt i din landningszon för datahantering bör du framhäva datastandardisering för alla tjänster. Datastandardisering definierar i vilket format dina data ska landa och lagras.

Dricks

Använd delta-lake-format där det är möjligt som defacto-standard för alla tjänster och lagring.

Mer information finns i Datastandardisering.

Nästa steg