Översikt över landningszon för datahantering i molnskala
Landningszonen för datahantering är en hanteringsfunktion och är central för analys i molnskala. Den ansvarar för styrningen av din analysplattform.
Landningszonen för datahantering är en separat prenumeration som har samma standardtjänster för Azure-landningszoner. Det möjliggör datastyrning av dina data via crawlers, som ansluter till dina datasjöar och polyglotlagring i dina datalandningszoner. Peering för virtuella nätverk ansluter din landningszon för datahantering till dina datalandningszoner och din anslutningsprenumeration.
Använd den här arkitekturen som utgångspunkt. Ladda ned Visio-filen och ändra den så att den passar dina specifika affärs- och tekniska krav när du planerar implementeringen av landningszonen för datahantering.
Kommentar
Polyglot persistence är en lagringsperiod som beskriver ditt val mellan olika datalagrings-/datalagertekniker för att stödja dina olika datatyper och deras lagringsbehov. I grund och botten är polyglotpersistence konceptet att ett program kan använda mer än en kärndatabas eller lagringsteknik.
Viktigt!
Landningszonen för datahantering måste distribueras som en separat prenumeration under en hanteringsgrupp med lämplig styrning. Du kan sedan styra styrningen i hela organisationen. Acceleratorn i Azure-landningszonen visar hur du bör närma dig Azure-landningszoner.
Data Catalog
Resursgrupp: governance-rg
Datakatalogen registrerar och underhåller datainformationen på en central plats och gör den tillgänglig för organisationen. Det säkerställer att företag undviker duplicerade dataprodukter som orsakas av redundant datainmatning av olika projektteam.
Vi rekommenderar att du skapar en datakatalogtjänst för att definiera metadata för de dataprodukter som lagras i datalandningszonerna.
Analys i molnskala är beroende av Microsoft Purview för att registrera företagsdatakällor, klassificera dem, säkerställa datakvalitet och erbjuda säker åtkomst med självbetjäning.
Microsoft Purview är en klientbaserad tjänst och kan kommunicera med varje datalandningszon genom att skapa ett hanterat virtuellt nätverk som distribueras till regionen för dina datalandningszoner. Du kan distribuera Azure Managed Virtual Network Integration Runtimes (IR) i Microsoft Purview Managed Virtual Networks i alla tillgängliga Microsoft Purview-regioner. Därifrån kan IR för det hanterade virtuella nätverket använda privata slutpunkter för att på ett säkert sätt ansluta till och genomsöka de datakällor som stöds. Mer information finns i Använda hanterat virtuellt nätverk med ditt Microsoft Purview-konto. Genom att skapa en hanterad virtuell nätverks-IR i hanterat virtuellt nätverk ser du till att dataintegreringsprocessen är isolerad och säker.
Kommentar
Även om den här dokumentationen främst fokuserar på att använda Microsoft Purview för styrning, kan företag ha investerat i andra produkter, till exempel Alation, Okera eller Collibra. De här lösningarna är prenumerationsbaserade och vi rekommenderar att du distribuerar dessa till landningszonen för datahantering. Tänk på att viss anpassad integrering kan krävas.
Mer information finns i Metodtips för datakatalog och Microsoft Purview-distribution för analys i molnskala.
Hantering av datakvalitet
Resursgrupp: governance-rg2
Fortsätt med din aktuella lösning.
Du bör hantera datakvaliteten så nära datakällan som möjligt så att du undviker kvalitetsproblem som replikeras i din analys- och AI-egendom. Om du flyttar kvalitetsmått och validering till din dataintegrering justeras kvalitetsprocessen med de team som är närmast dina data. De här teamen har den djupaste förståelsen för din datatillgång.
Data härkomst ger också förtroende för datakvalitet, och du bör tillhandahålla den för alla dataprodukter och produkter.
Mer information om datakvalitetshantering finns i Datakvalitet.
Lagringsplats för datamodellering
Resursgrupp: governance-rg2
Du bör samla in och lagra entitetsrelationsmodeller på en central plats i landningszonen för datahantering. Detta ger datakonsumenter en enda plats för att hitta konceptuella diagram.
Många kunder använder ER Studio och iServer för att modellera sina dataprodukter före inmatning.
Hantering av huvuddata
Resursgrupp: governance-rg2
Hanteringskontrollen för huvuddata finns i landningszonen för datahantering. Hantering av huvuddata i datanät innehåller specifika överväganden som du bör ta upp för datanät.
Många huvudlösningar för datahantering integreras fullständigt med Microsoft Entra-ID. Med den här integreringen kan du skydda dina data och tillhandahålla olika vyer för olika användargrupper.
Mer information finns i Huvuddatahanteringssystem.
API-katalog
Resursgrupp: governance-rg2
Dina dataprogramteam över kommer sannolikt att skapa olika API:er för deras dataprogram. Dessa API:er kan vara svåra att identifiera i hela organisationen. Att placera en API-katalog i landningszonen för datahantering kan lösa det här problemet.
En API-katalog kan hjälpa dig att standardisera din dokumentation och erbjuder en plats för internt samarbete om API:er. Det kan också driva förbruknings-, publicerings- och styrningskontroller i hela organisationen.
Datadelning och kontrakt
Resursgrupp: governance-rg2
Analys i molnskala använder Microsoft Entra-berättigandehantering eller Microsoft Purview-principer för att styra åtkomsten till datadelning. Trots detta kanske du fortfarande behöver en lagringsplats för delning och kontrakt. Den här lagringsplatsen är en organisationsfunktion och bör finnas i landningszonen för datahantering.
Dina kontrakt bör ge information om dataverifiering, modeller och säkerhetsprinciper.
Mer information finns i Datakontrakt
Azure Container Registry
Resursgrupp: containers-rg
Din landningszon för datahantering är värd för ett Azure Container Registry. Med Azure Container Registry kan dina dataplattformsåtgärder distribuera standardcontainrar för användning i datavetenskapsprojekt som dina dataprogramteam använder.
Azure Synapse Private Link-hubbar
Resursgrupp: synapse-link-rg
Azure Synapse Analytics Private Link-hubbar är Azure-resurser som ansluter ditt skyddade nätverk och Azure Synapse Studio-webbupplevelsen. Analys i molnskala ansluter på ett säkert sätt ditt virtuella Azure-nätverk till Azure Synapse Studio med hjälp av privata länkar från dessa hubbar.
Det finns två steg för att ansluta till Azure Synapse Studio med hjälp av privata länkar.
- Skapa en Private Link-hubbresurs.
- Skapa en privat slutpunkt från ditt virtuella Azure-nätverk till den private link-hubben.
Du kan sedan använda privata slutpunkter för att kommunicera säkert med Azure Synapse Studio. Integrera dessa privata slutpunkter med din DNS-lösning, antingen med din lokala lösning eller med Azure Privat DNS.
Mer information finns i Ansluta till Azure Synapse Studio med privata länkar.
Automation-gränssnitt (valfritt)
Din organisation kan välja att skapa många automatiseringstjänster för att utöka analysfunktionerna i molnskala. Dessa automatiseringstjänster skapar lösningar för överensstämmelse och registrering för ditt analystillstånd.
Om du bestämmer dig för att skapa dessa automationstjänster bör du ha ett användargränssnitt som fungerar som både en datamarknadsplats och en driftkonsol. Det här gränssnittet bör förlita sig på ett underliggande metadatalager som vi tidigare har diskuterat i metadatastandarder.
Din datamarknad eller driftkonsol anropar en mellannivå av mikrotjänster för att underlätta registrering av metadata, säkerhetsetablering, datalivscykel och observerbarhet.
Du kan etablera resursgruppen automationdb-rg som värd för ditt metadatalager.
Viktigt!
Ingen av dessa automationstjänster är produkter, och de illustrerar inte något översiktsobjekt. De visas för att hjälpa dig att överväga vilka objekt som du kanske vill automatisera.
Tjänster
Tjänst | Tjänstomfång |
---|---|
Etablering av datalandningszon | Den här tjänsten skapar en ny datalandningszon. Det är osannolikt att den har hög användning, men ingår för kompletthet i onboarding-lösningen från slutpunkt till slutpunkt. Mer information finns i Etablera analys i molnskala |
Registrering av dataprodukter | Den här tjänsten skapar och ändrar resursgrupper som gäller för en registrerad klientorganisation. Den innehåller också funktioner för att uppgradera och degradera SKU:er och för att aktivera och inaktivera resursgrupper för alla registrerade klientorganisationer eller tjänster. Det skapar en ny datalandningszon DevOps. Mer information finns i Etablera analys i molnskala |
Åtkomstetablering | Den här tjänsten skapar åtkomstpaket, åtkomstprinciper och processen för godkännande av tillgångsåtkomst (manuell eller automatisk) med HJÄLP av SPN/UPN. Det kan också exponera ett API för att tillhandahålla en lista över prenumerationsbegäranden (tillgångar) som användare har skickat under de senaste 90 dagarna. Mer information finns i Dataåtkomsthantering |
Dataagnostisk inmatning | Den här mikrotjänsten skapar nya datakällor för inmatning till dina datalandningszoner. Det gör du genom att kommunicera med ett Azure Data Factory SQL Database-metaarkiv i varje datalandningszon. Mer information finns i How automated ingestion frameworks support cloud-scale analytics in Azure |
Metadata | Den här tjänsten exponeras och skapar metadata för plattformen. Mer information finns i Metadatastandarder |
Datalivscykel | Den här tjänsten ansvarar för att underhålla din datalivscykel baserat på metadata. Det här underhållet kan omfatta flytt av data till kall lagring och borttagning av poster som inte längre behöver behållas. Mer information finns i Datalivscykelhantering |
Registrering av datadomäner | GÄLLER ENDAST FÖR DATA MESH. Den här tjänsten samlar in metadata som rör nya domäner och registrerar de nya domänerna efter behov. Den kan också skapa, uppdatera, aktivera och inaktivera alla domäner eller tjänstrader som du kan bygga in i en mikrotjänst. Mer information finns i Etablera analys i molnskala |
Datastandardisering
Även om det inte är en specifik funktion eller produkt i din landningszon för datahantering bör du framhäva datastandardisering för alla tjänster. Datastandardisering definierar i vilket format dina data ska landa och lagras.
Dricks
Använd delta-lake-format där det är möjligt som defacto-standard för alla tjänster och lagring.
Mer information finns i Datastandardisering.