Sdílet prostřednictvím


Zásady správného řízení dat pomocí Azure Databricks

Zásady správného řízení dat jsou rámec zásad, procesů, rolí a technických kontrolních mechanismů, které zajišťují, že data vaší organizace jsou zabezpečená, důvěryhodná a používají se zodpovědně během celého životního cyklu. Efektivní zásady správného řízení dat umožňují udržovat kvalitu dat, chránit citlivé informace, splňovat zákonné požadavky a maximalizovat hodnotu vašich datových prostředků.

Mezi klíčové komponenty zásad správného řízení dat patří:

  • Řízení přístupu a zabezpečení: Implementace jemně odstupňovaných oprávnění a bezpečnostních opatření pro ochranu dat před neoprávněným přístupem při povolování vhodného použití
  • Rodokmen dat a pozorovatelnost: Sledování toků dat a transformací pro pochopení původu dat, závislostí a vzorů použití
  • Správa kvality dat: Zajištění, že data jsou přesná, úplná, konzistentní a spolehlivá pro rozhodování a analýzu.
  • Správa metadat: Zachytávání a údržba informací o datových prostředcích za účelem zlepšení zjistitelnosti a porozumění.
  • Vynucování dodržování předpisů: Splnění zákonných požadavků a zásad organizace pro ochranu osobních údajů, uchovávání a používání dat

Tato stránka se zaměřuje na zásady správného řízení dat pomocí katalogu Unity v Azure Databricks. Související témata zabezpečení, jako je ověřování, konfigurace sítě, šifrování dat a dodržování předpisů ochrany osobních údajů, jsou popsána v přehleduzabezpečení a dodržování předpisů a dodržování předpisů.

Model zásad správného řízení dat v katalogu Unity

Unity Catalog je centralizovaný katalog dat, který poskytuje zásady správného řízení pro strukturovaná i nestrukturovaná data ve více formátech. Nabízí jemně odstupňované řízení přístupu a zásady správného řízení prostředků AI, jako jsou modely strojového učení. Unity Catalog je opensourcový a podporuje více platforem. Je hluboce integrovaný do Azure Databricks.

Unity Catalog je kompletní řešení zásad správného řízení dat, které poskytuje následující:

  • Sjednocení dat: jednotný pohled na všechna data a prostředky AI napříč platformami, což snižuje duplicitu a rozrůstání.
  • Řízení přístupu k datům: Nástroje pro zajištění přístupnosti dat, ale pouze pro správné uživatele.
  • Zjistitelnost dat: nástroje, které usnadňují nalezení potřebných dat.
  • Kvalita dat: nástroje pro zajištění přesnosti, úplného, konzistentního a zabezpečeného dat v průběhu životního cyklu.
  • Spolupráce a sdílení dat: Nástroje pro bezpečné sdílení dat nejen v rámci vaší organizace, ale napříč hranicemi organizace a platformy.
  • Auditování: nástroje, které zachycují, kdo data používá a jak.

Tato stránka vysvětluje, jak může vaše organizace tyto potřeby splnit pomocí katalogu Unity v Azure Databricks.

Řízení přístupu k datům

Aby uživatelé měli přístup jenom k datům, která by měli, poskytuje Katalog Unity hierarchický model oprávnění, který umožňuje uživatelům, skupinám a instančním objektům udělit přístup k datům a prostředkům AI z úrovně účtu dolů až po řádky a sloupce tabulky. Můžete řídit přístup k prostředkům uloženým ve vyhrazeném úložišti Katalogu Unity nebo uloženým na jiných platformách, jako je cloudové úložiště nebo databázové systémy: klíčem je, že Služba Unity Catalog poskytuje uživatelům potenciální přístup ke všem vašim datům bez ohledu na to, kde jsou, z Azure Databricks a že Unity Catalog řídí jejich přístup a sleduje jejich využití dat.

Úkol Popis
Správa oprávnění Přečtěte si o zabezpečitelných objektech, které katalog Unity spravuje, a o tom, jak k nim řídit přístup.
Správa řízení přístupu na základě atributů (ABAC) Zjistěte, jak řídit přístup k datům pomocí ABAC v katalogu Unity.
Správa identit Naučte se spravovat identity v kontextu katalogu Unity.
Jemně odstupňované řízení přístupu Zjistěte, jak řídit přístup k datům tabulky pomocí filtrů řádků a masek sloupců.
Správa přístupu k externím úložištům a datovým platformám Naučte se řídit přístup ke cloudovému úložišti, externím datovým platformám a externím ne-datovým službám pomocí katalogu Unity.
Správa přístupu z externích platforem Zjistěte, jak může katalog Unity spravovat přístup k vašim datům z externích platforem, které používají rozhraní API katalogu Apache Iceberg nebo opensourcové rozhraní Api katalogu Unity.

Zjistitelnost dat

Azure Databricks a Unity Catalog poskytují následující nástroje, které uživatelům pomůžou najít potřebná data:

Vlastnost Popis
Průzkumník katalogu Procházejte a vyhledávejte data a aktiva AI pomocí jejich názvů a metadat, jako jsou komentáře a značky.
Prohlížeče katalogu Vyhledejte data a prostředky AI pomocí prohlížečů integrovaných do poznámkového bloku a editorů dotazů SQL. Viz Navigace v poznámkovém bloku Databricks a editoru souborů a zápis dotazů a zkoumání dat v novém editoru SQL.
Komentáře generované AI Automaticky generujte dokumentaci k datovým a AI prostředkům, aby byly lépe dohledatelné.
Přehledy tabulek Pomocí uživatelského rozhraní integrovaného do Průzkumníka katalogu můžete zobrazit nejčastější uživatele a dotazy libovolné tabulky v katalogu Unity.
Sledovatelnost dat Zachyťte a vizualizujete způsob, jakým data procházejí vaší organizací.
Informace o rodokmenu funkcí a modelů najdete v tématu Zásady správného řízení a rodokmen funkcí.
Diagramy vztahů entit (ERD) Zobrazí relace pro tabulky, které mají definované cizí klíče.

Viz také Zjišťování dat.

Monitorování kvality dat

Nástroje pro zajištění kvality dat a integrity dat jsou hluboce integrované do Delta Lake, Apache Sparku a Azure Databricks. O nich se můžete dozvědět v dokumentaci k Azure Databricks.

Katalog Unity přidává následující položky:

Vlastnost Popis
Monitorování kvality dat Monitorování kvality dat pomáhá zajistit kvalitu všech datových prostředků v katalogu Unity. Zahrnuje detekci anomálií pro monitorování kvality dat všech tabulek v katalogu nebo schématu a profilaci dat za účelem monitorování statistických vlastností a kvality dat jednotlivých tabulek.
Certifikované a zastaralé systémové značky (Private Preview) Označte zabezpečitelné objekty, jako jsou katalogy, schémata a tabulky, indikátory kvality dat nebo stavu jejich životního cyklu. Tyto systémové značky pomáhají organizacím vynucovat zásady správného řízení, zlepšit zjistitelnost dat a zvýšit důvěru v analytické aplikace a aplikace umělé inteligence.

Spolupráce a sdílení dat

Katalog Unity umožňuje uživatelům spolupracovat na stejných datech ve všech pracovních prostorech vašeho účtu ve stejné oblasti. Pokud potřebujete spolupráci napříč oblastmi pracovních prostorů, mezi organizacemi a napříč platformami, poskytuje katalog Unity základ pro následující nástroje pro sdílení.

Vlastnost Popis
Delta sdílení Zabezpečená platforma pro sdílení dat, která umožňuje sdílet data a prostředky AI v Azure Databricks s uživateli mimo vaši organizaci, ať už tito uživatelé používají Databricks, nebo ne.
Čisté pokoje Prostředí spravované Službou Databricks, ve kterém může na projektech spolupracovat více účastníků na platformách Databricks a jiných než Databricks, aniž by mezi sebou sdíleli podkladová data.
Databricks Marketplace Otevřené fórum pro výměnu dat a produktů umělé inteligence. Poskytuje také soukromou výměnu dat.

Kontrola

Protokoly auditu zaznamenávají podrobné podrobnosti o tom, kdo získal přístup k dané datové sadě a akcím, které provedl. Unity Catalog přidává systémové tabulky, což je nejjednodušší způsob, jak získat přístup k protokolům auditu vašeho účtu a dotazovat se na je.

Viz Referenční informace k diagnostickým protokolům a Monitorování aktivit účtu pomocí systémových tabulek.

Dřívější nástroje správy dat Azure Databricks

Azure Databricks také poskytuje tyto starší funkce zásad správného řízení. Databricks místo toho doporučuje používat katalog Unity.

Vlastnost Popis
Řízení přístupu k tabulce Starší model zásad správného řízení dat, který umožňuje programově udělit a odvolat přístup k objektům spravovaným integrovaným metastorem Hive vašeho pracovního prostoru.
Předávání přihlašovacích údajů služby Azure Data Lake Storage Starší funkce zásad správného řízení dat, která umožňuje automatické ověřování ve službě Azure Storage z clusterů Azure Databricks pomocí stejné identity ID Microsoft Entra, kterou používáte pro přihlášení k Azure Databricks.

Další kroky