Metodtips för datastyrning

Den här artikeln beskriver behovet av datastyrning och delar metodtips och strategier som du kan använda för att implementera dessa tekniker i hela organisationen.

Varför är datastyrning viktigt?

Datastyrning är tillsynen för att säkerställa att data ger värde och stöder din affärsstrategi. Datastyrning kapslar in de principer och metoder som implementeras för att hantera datatillgångarna i en organisation på ett säkert sätt. I takt med att datamängden och komplexiteten växer tittar allt fler organisationer på datastyrning för att säkerställa de viktigaste affärsresultaten:

  • Konsekvent och hög datakvalitet som grund för analys och maskininlärning.
  • Kortare tid till insikt.
  • Datademokratisering, som gör det möjligt för alla i en organisation att fatta datadrivna beslut.
  • Stöd för risk och efterlevnad för branschbestämmelser som HIPAA, FedRAMP, GDPR eller CCPA.
  • Kostnadsoptimering, till exempel genom att förhindra att användare startar stora kluster och skapar skyddsmekanismer för att använda dyra GPU-instanser.

Hur ser en bra datastyrningslösning ut?

Datadrivna företag skapar vanligtvis sina dataarkitekturer för analys i Lakehouse. Ett datasjöhus är en arkitektur som möjliggör effektiv och säker datateknik, maskininlärning, informationslager och business intelligence direkt på stora mängder data som lagras i datasjöar. Datastyrning för ett datasjöhus innehåller följande viktiga funktioner:

  • Enhetlig katalog: En enhetlig katalog lagrar alla dina data, ML-modeller och analysartefakter, förutom metadata för varje dataobjekt. Den enhetliga katalogen blandas också i data från andra kataloger, till exempel ett befintligt Hive-metaarkiv.
  • Enhetliga dataåtkomstkontroller: En enda och enhetlig behörighetsmodell för alla datatillgångar och alla moln. Detta inkluderar attributbaserad åtkomstkontroll (ABAC) för personligt identifierbar information (PII).
  • Dataisolering: Dataisolering kan uppnås på flera nivåer – miljö, lagringsplats, dataobjekt med ökad kornighet – utan att förlora möjligheten att hantera åtkomst och granskning centralt.
  • Datagranskning: Dataåtkomst granskas centralt med aviseringar och övervakningsfunktioner för att främja ansvarsskyldighet.
  • Hantering av datakvalitet: Robust datakvalitetshantering med inbyggda kvalitetskontroller, testning, övervakning och tillämpning för att säkerställa att korrekta och användbara data är tillgängliga för bi-, analys- och maskininlärningsarbetsbelastningar nedströms.
  • Data härkomst: Data härkomst för att få insyn i hur data flödar i Lakehouse från källa till förbrukning.
  • Dataidentifiering: Enkel dataidentifiering för att göra det möjligt för dataforskare, dataanalytiker och datatekniker att snabbt identifiera och referera till relevanta data och påskynda tiden till värde.
  • Datadelning: Data kan delas mellan moln och plattformar.

Datastyrning och Azure Databricks

Azure Databricks ger centraliserad styrning för data och AI med Unity Catalog och Delta Sharing.

  • Unity Catalog är en detaljerad styrningslösning för data och AI på Databricks Lakehouse. Det förenklar säkerheten och styrningen av dina data genom att tillhandahålla en central plats för att administrera och granska dataåtkomst.
  • Deltadelning är ett öppet protokoll som utvecklats av Databricks för säker datadelning med andra organisationer eller med andra team i din organisation, oavsett vilka beräkningsplattformar de använder.

Metodtips för att införa Unity-katalog och Deltadelning finns i Metodtips för Unity-katalogen.

Äldre datastyrningslösningar

  • Åtkomstkontroll för tabeller är en äldre datastyrningsmodell som gör att du programmatiskt kan bevilja och återkalla åtkomst till objekt som hanteras av arbetsytans inbyggda Hive-metaarkiv. Databricks rekommenderar att du använder Unity Catalog i stället för åtkomstkontroll för tabeller. Unity Catalog förenklar säkerheten och styrningen av dina data genom att tillhandahålla en central plats för att administrera och granska dataåtkomst över flera arbetsytor i ditt konto.

  • Azure Data Lake Storage genomströmning för autentiseringsuppgifter (äldre) är också en äldre datastyrningsfunktion som gör att du kan autentisera automatiskt till Azure Storage från Azure Databricks-kluster med samma Azure Active Directory-identitet som du använder för att logga in på Azure Databricks. Databricks rekommenderar att du använder Unity Catalog i stället.

Identitetskonfiguration

Varje bra datastyrningsberättelse börjar med en stark identitetsgrund. Information om hur du konfigurerar identiteter i Azure Databricks finns i Metodtips för identiteter.

Lära sig mer

Här följer några resurser som hjälper dig att skapa en omfattande datastyrningslösning som uppfyller organisationens behov:

  • Kom igång med Unity Catalog för stegvisa instruktioner för att konfigurera Unity Catalog för din organisation.
  • Databricks Security and Trust Center, som innehåller information om hur säkerheten är inbyggd i varje lager i Databricks Lakehouse Platform.
  • Hemlighetshantering för information om hur du använder Databricks-hemligheter för att lagra dina autentiseringsuppgifter och referera till dem i notebook-filer och jobb. Du bör aldrig hårdkoda hemligheter eller lagra dem i oformaterad text.