Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Unity Catalog je jednotné řešení zásad správného řízení a dat AI integrované přímo do platformy Azure Databricks. Toto je přehled klíčových konceptů v katalogu Unity a o tom, jak pomocí katalogu Unity řídit data.
Mezi klíčové pilíře katalogu Unity patří:
- Jednotné řízení přístupu: Katalog Unity nabízí jedno místo pro správu oprávnění pro tabulky, soubory, modely a další objekty z jednoho rozhraní.
- Zjišťování dat: Katalog Unity umožňuje uživatelům vyhledávat a porozumět datovým prostředkům prostřednictvím prohledávatelného rozhraní rozšířeného o značky, popisy a metadata.
- Automatizované sledování rodokmenu: Automaticky sledujte tok dat a způsob jejich transformace ze zdroje na konečná zobrazení a řídicí panely.
- Auditování: Udržujte úplný záznam o všech aktivitách přístupu k datům a systému, abyste splnili požadavky na zabezpečení a dodržování právních předpisů.
- Monitorování kvality dat: Proaktivně sledujte stav datových prostředků pomocí předdefinované profilace a výstrah, které zachytají anomálie před tím, než dosáhnou podřízených příjemců.
- Zabezpečené sdílení dat: Zabezpečená výměna živých dat mezi organizacemi a cloudy pomocí otevřeného protokolu Delta Sharing, což eliminuje potřebu komplexního etL nebo kopírování dat.
Katalog Unity je také k dispozici jako opensourcová implementace. Podívejte se na oznamovací blog a veřejné úložiště GitHubu Unity Catalog.
Objektový model Katalogu Unity
V katalogu Unity se každý aktivum, které řídíte, modeluje jako objekt. Konkrétně se tyto objekty nazývají zabezpečitelné objekty v katalogu Unity. K řízení těchto zabezpečitelných objektů můžete použít zásady řízení přístupu a metadata, jako jsou značky.
Zabezpečitelné objekty se nachází v hierarchii modelu objektu Katalogu Unity, která je kořenem speciálního objektu označovaného jako metastore. Datové prostředky, jako jsou tabulky, zobrazení, svazky, funkce a modely, se řídí tříúrovňovým oborem názvů (catalog.schema.object). Další objekty, jako jsou přihlašovací údaje úložiště, externí umístění, připojení a sdílené složky, se nacházejí přímo pod metastorem.
Tato hierarchie je základem toho, jak Katalog Unity organizuje prostředky a vynucuje zásady správného řízení. Pokud chcete porozumět modelu objektů katalogu Unity a jednotlivým zabezpečitelným objektům podrobněji, přečtěte si článek o zabezpečitelných objektech Unity. Pokud chcete zjistit, jak model oprávnění funguje v kontextu modelu objektu Katalogu Unity, přečtěte si téma Koncepty modelu oprávnění katalogu Unity.
Role správce
Správci zodpovídají za dohled nad zásadami správného řízení v katalogu Unity. Tady jsou různé úrovně rolí správců a jejich výchozí oprávnění:
- Správci účtů můžou vytvářet metastory, propojit pracovní prostory s metastory, přidávat uživatele a přiřazovat oprávnění k metastorům.
- Správci pracovního prostoru můžou přidávat uživatele do pracovního prostoru a spravovat mnoho objektů specifických pro pracovní prostor, jako jsou úlohy a poznámkové bloky. V závislosti na pracovním prostoru můžou správci pracovního prostoru mít také mnoho oprávnění k metastoru připojenému k pracovnímu prostoru.
- Správci metastoru jsou volitelné role, které můžou spravovat úložiště tabulek a svazků na úrovni metastoru. Je také vhodné, pokud chcete data centrálně spravovat napříč více pracovními prostory v oblasti.
Další informace najdete v tématu Oprávnění správce v katalogu Unity.
Udělení a odvolání přístupu k zabezpečitelným objektům
Privilegovaní uživatelé mohou udělit a odvolat přístup k zabezpečitelným objektům na libovolné úrovni v hierarchii, včetně samotného metastoru. Přístup k objektu implicitně uděluje stejný přístup všem jeho podřízeným objektům, pokud není přístup odvolán.
K udělení a odvolání přístupu k objektům v katalogu Unity můžete použít typické příkazy ANSI SQL. Příklad:
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Ke správě oprávnění k objektům můžete použít také Průzkumníka katalogu, rozhraní příkazového řádku Databricks a rozhraní REST API.
Správci metastoru, vlastníci objektu a uživatelé s MANAGE privilege objektem můžou udělit a odvolat přístup. Informace o správě oprávnění v katalogu Unity najdete v tématu Správa oprávnění v katalogu Unity.
Výchozí přístup k databázovým objektům v katalogu Unity
Katalog Unity funguje na principu nejnižších oprávnění, kdy uživatelé mají minimální přístup, který potřebují k provádění požadovaných úloh. Při vytváření pracovního prostoru mají uživatelé, kteří nejsou správci, přístup pouze k automaticky zřízenému katalogu pracovních prostorů, což umožňuje uživatelům vyzkoušet proces vytváření a přístupu k databázovým objektům v katalogu Unity. Podívejte se na oprávnění katalogu pracovního prostoru.
Spravované a externí tabulky a svazky
Tabulky a svazky je možné spravovat nebo mít externí charakter.
- Spravované tabulky jsou plně spravované katalogem Unity, což znamená, že Katalog Unity spravuje zásady správného řízení i podkladové datové soubory pro každou spravovanou tabulku. Spravované tabulky se ukládají do umístění spravovaného katalogem Unity ve vašem cloudovém úložišti. Spravované tabulky vždy používají formát Delta Lake. Spravované tabulky můžete ukládat na úrovni metastoru, katalogu nebo schématu.
- Externí tabulky jsou tabulky , jejichž přístup z Azure Databricks spravuje Katalog Unity, ale jejichž životní cyklus dat a rozložení souborů se spravují pomocí poskytovatele cloudu a dalších datových platforem. K registraci velkých objemů stávajících dat v Azure Databricks obvykle používáte externí tabulky nebo pokud potřebujete také přístup k zápisu k datům pomocí nástrojů mimo Azure Databricks. Externí tabulky jsou podporovány ve více formátech dat. Jakmile je externí tabulka zaregistrovaná v metastoru katalogu Unity, můžete spravovat a auditovat přístup k Azure Databricks--- a pracovat s ní---just, jak můžete se spravovanými tabulkami.
- Spravované svazky jsou plně spravované katalogem Unity, což znamená, že Katalog Unity spravuje přístup k umístění úložiště svazku v účtu poskytovatele cloudu. Když vytvoříte spravovaný svazek, automaticky se uloží do spravovaného umístění úložiště přiřazeného k obsahujícímu schématu.
- Externí svazky představují existující data v umístěních úložiště spravovaných mimo Azure Databricks, ale zaregistrované v Katalogu Unity pro řízení a audit přístupu z Azure Databricks. Při vytváření externího oddílu v Azure Databricks určíte jeho umístění, které musí být na cestě definované v externím umístění katalogu Unity.
Databricks doporučuje spravované tabulky a svazky pro většinu případů použití, protože vám umožňují plně využít výhod možností zásad správného řízení a optimalizací výkonu katalogu Unity. Informace o typických případech použití externích tabulek a svazků najdete v tématu Spravované a externí tabulky a spravované a externí svazky.
Viz také:
- Spravované tabulky katalogu Unity v Azure Databricks pro Delta Lake a Apache Iceberg
- Práce s externími tabulkami
- Spravované a externí svazky.
Cloudové úložiště a izolace dat
Katalog Unity používá cloudové úložiště dvěma primárními způsoby:
- Spravované úložiště: výchozí umístění spravovaných tabulek a spravovaných svazků (nestrukturovaná, ne tabulková data), která vytvoříte v Azure Databricks. Tato spravovaná umístění úložiště je možné definovat na úrovni metastoru, katalogu nebo schématu. Ve svém poskytovateli cloudu vytvoříte spravovaná umístění úložiště, ale správu jejich životního cyklu plně zajišťuje Unity Catalog.
- Umístění úložiště, kde jsou uložené externí tabulky a svazky. Jedná se o tabulky a svazky, jejichž přístup z Azure Databricks spravuje Katalog Unity, ale jejichž životní cyklus dat a rozložení souborů se spravují pomocí poskytovatele cloudu a dalších datových platforem. K registraci velkých objemů stávajících dat v Azure Databricks obvykle používáte externí tabulky nebo svazky nebo pokud potřebujete přístup k datům také pomocí nástrojů mimo Azure Databricks.
Řízení přístupu ke cloudovému úložišti pomocí externích umístění
Spravovaná umístění úložiště i umístění úložišť, ve kterých jsou uloženy externí tabulky a svazky, používají objekty zabezpečitelné externě pro správu přístupu z Azure Databricks. Objekty externího umístění odkazují na cestu cloudového úložiště a přihlašovací údaje úložiště potřebné pro přístup k úložišti. Přihlašovací údaje k úložišti jsou samy o sobě zabezpečitelné objekty katalogu Unity, které registrují přihlašovací údaje potřebné pro přístup ke konkrétní cestě úložiště. Tyto zabezpečitelné funkce společně zajišťují, aby byl přístup k úložišti řízen a sledován katalogem Unity.
Následující diagram ukazuje, jak externí umístění odkazují na přihlašovací údaje a cloudové úložiště.
V tomto diagramu:
- Každé externí umístění odkazuje na přihlašovací údaje úložiště a cloudové úložiště.
- Více externích umístění může odkazovat na stejná pověření úložiště.
Přihlašovací údaje úložiště 1 uděluje přístup ke všemu pod cestou
bucket/tables/*, takže externí umístění A i externí umístění B na něj odkazují.
Další informace najdete v tématu Jak katalog Unity řídí přístup ke cloudovému úložišti?.
Hierarchie umístění spravovaného úložiště
Úroveň, na které definujete spravované úložiště v katalogu Unity, závisí na preferovaném modelu izolace dat. Vaše organizace může vyžadovat, aby určité typy dat byly uloženy v konkrétních účtech nebo kontejnerech ve vašem cloudovém tenantovi.
Katalog Unity vám umožňuje konfigurovat spravovaná umístění úložiště na úrovni metastoru, katalogu nebo schématu tak, aby splňovala tyto požadavky.
Řekněme například, že vaše organizace má zásady dodržování předpisů společnosti, které vyžadují produkční data týkající se lidských prostředků, která se nacházejí v kontejneru abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net. V katalogu Unity můžete tohoto požadavku dosáhnout nastavením umístění na úrovni katalogu, vytvořením katalogu volaný například hr_proda přiřazením umístění abfss://mycompany -hr-prod@storage-account.dfs.core.windows.net/unity-catalog. To znamená, že spravované tabulky nebo svazky vytvořené v katalogu hr_prod (například pomocí CREATE TABLE hr_prod.default.table …) ukládají svá data do abfss://mycompany -hr-prod@storage-account.dfs.core.windows.net/unity-catalog. Volitelně můžete zadat umístění na úrovni schématu pro uspořádání dat v rámci hr_prod catalog na detailnější úrovni.
Pokud pro některé katalogy není nutná izolace úložiště, můžete volitelně nastavit umístění úložiště na úrovni metastoru. Toto umístění slouží jako výchozí umístění pro spravované tabulky a svazky v katalogech a schématech, které nemají přiřazené úložiště. Databricks ale obvykle doporučuje, abyste každému katalogu přiřadili samostatná spravovaná umístění úložiště.
Systém vyhodnotí hierarchii umístění úložiště ze schématu do katalogu do metastoru.
Pokud je například vytvořena myCatalog.mySchema.myTabletabulkamy-region-metastore, umístění úložiště tabulky je určeno podle následujícího pravidla:
- Pokud bylo uvedeno umístění pro
mySchema, bude tam uloženo. - Pokud ne a bylo zadáno umístění na
myCatalog, bude tam uloženo. - A konečně, pokud nebude k dispozici žádné umístění na
myCatalog, bude uloženo v umístění přidruženém kmy-region-metastore.
Další informace naleznete v tématu Určení spravovaného umístění úložiště v katalogu Unity.
Izolace prostředí prostřednictvím propojení katalogu pracovního prostoru
Ve výchozím nastavení můžou vlastníci katalogu (a správci metastoru, pokud jsou pro tento účet definováni), zpřístupnit katalog uživatelům ve více pracovních prostorech připojených ke stejnému metastoru katalogu Unity.
Požadavky organizace a dodržování předpisů často určují, že určitá data, jako jsou osobní údaje, jsou přístupná jenom v určitých prostředích. Můžete také chtít zachovat produkční data izolovaná od vývojových prostředí nebo zajistit, aby se určité datové sady a domény nikdy nepřipojily.
V Azure Databricks je pracovní prostor primárním prostředím pro zpracování dat a katalogy jsou primární doménou dat. Katalog Unity umožňuje správcům metastoru, vlastníkům katalogu a uživatelům s přiřazeným oprávněním MANAGE nebo svázat katalogy ke konkrétním pracovním prostorům. Tyto vazby podporující prostředí umožňují zajistit, aby byly v pracovním prostoru k dispozici pouze určité katalogy bez ohledu na konkrétní oprávnění k datovým objektům uděleným uživateli. Pokud ale používáte pracovní prostory k izolaci přístupu k uživatelským datům, možná budete chtít omezit přístup katalogu na konkrétní pracovní prostory ve vašem účtu, abyste zajistili, že se určité druhy dat zpracovávají jenom v těchto pracovních prostorech. Můžete například chtít samostatné pracovní prostory pro produkční a vývoj nebo samostatný pracovní prostor pro zpracování osobních údajů. To se označuje jako vazba pracovních prostorů-katalog. Viz Omezení přístupu katalogu ke konkrétním pracovním prostorům.
Poznámka:
Pokud chcete zvýšit izolaci dat, můžete také svázat přístup ke cloudovému úložišti a přístup ke cloudovým službám ke konkrétním pracovním prostorům. Viz (Volitelné) Přiřaďte přihlašovací údaje úložiště konkrétním pracovním prostorům, (Volitelné) Přiřaďte externí umístění konkrétním pracovním prostorům a (Volitelné) Přiřaďte přihlašovací údaje služby konkrétním pracovním prostorům.
Jak nastavím katalog Unity pro svou organizaci?
Pokud chcete použít Katalog Unity, musí být váš pracovní prostor Azure Databricks povolený pro Katalog Unity, což znamená, že pracovní prostor je připojený k metastoru katalogu Unity.
Jak se pracovní prostor připojí k metastoru? Závisí na účtu a pracovním prostoru:
- Při prvním vytvoření pracovního prostoru Azure Databricks v oblasti se metastor obvykle vytvoří automaticky a připojí se k pracovnímu prostoru.
- U některých starších účtů musí správce účtu vytvořit metastore a přiřadit pracovní prostory v daném regionu k metastoru. Pokyny najdete v tématu Vytvoření metastoru katalogu Unity.
- Pokud už má účet přiřazený metastor pro oblast, správce účtu se může rozhodnout, jestli se metastor automaticky připojí ke všem novým pracovním prostorům v této oblasti. Viz Povolení automatického přiřazení metastoru k novým pracovním prostorům.
Bez ohledu na to, jestli byl váš pracovní prostor pro Katalog Unity povolen automaticky, jsou také potřeba následující kroky, abyste mohli začít s katalogem Unity:
- Vytvořte katalogy a schémata, která budou obsahovat databázové objekty, jako jsou tabulky a svazky.
- Vytvořte spravovaná úložiště pro uložení spravovaných tabulek a svazků v rámci těchto katalogů a schémat.
- Udělte uživatelům přístup k katalogům, schématům a databázovým objektům.
Pracovní prostory, které jsou automaticky povolené pro katalog Unity, zřizují katalog pracovních prostorů s širokými oprávněními udělenými všem uživatelům pracovního prostoru. Tento katalog je vhodným výchozím bodem pro vyzkoušení katalogu Unity.
Podrobné pokyny k nastavení najdete v tématu Začínáme s katalogem Unity.
Upgrade existujícího pracovního prostoru na katalog Unity
Informace o upgradu pracovního prostoru jiného než Unity Catalog na Katalog Unity najdete v tématu Upgrade pracovního prostoru Azure Databricks na Katalog Unity.
Požadavky a omezení katalogu Unity
Katalog Unity vyžaduje konkrétní typy výpočetních prostředků a formátů souborů, které jsou popsány níže. Dále jsou uvedeny některé funkce Azure Databricks, které nejsou plně podporované v katalogu Unity ve všech verzích Databricks Runtime.
Podpora oblastí
Všechny oblasti podporují katalog Unity. Podrobnosti najdete v oblastech Azure Databricks.
Požadavky na výpočetní prostředky
Katalog Unity je podporován v clusterech, na kterých běží Databricks Runtime 11.3 LTS nebo vyšší. Katalog Unity se ve výchozím nastavení podporuje ve všech výpočetních verzích SQL Warehouse .
Clustery spuštěné na dřívějších verzích Databricks Runtime nepodporují všechny funkce a funkcionality Unity Catalog ve verzi General Availability (GA).
Aby bylo možné získat přístup k datům v katalogu Unity, musí být clustery nakonfigurované se správným režimem přístupu. Katalog Unity je ve výchozím nastavení zabezpečený. Pokud cluster není nakonfigurovaný se standardním nebo vyhrazeným režimem přístupu, cluster nemá přístup k datům v katalogu Unity. Viz režimy přístupu.
Podrobné informace o změnách funkcí katalogu Unity v jednotlivých verzích modulu Databricks Runtime najdete v poznámkách k verzi.
Podpora formátu souborů
Katalog Unity podporuje následující formáty tabulek:
-
Spravované tabulky musí používat formát tabulky
deltaneboiceberg. -
Externí tabulky mohou používat
delta, ,CSV,JSONavroparquet, , ,ORC, nebo .text
Omezení
Katalog Unity má následující omezení. Některé z nich jsou specifické pro starší verze Databricks Runtime a režimy výpočetního přístupu.
Úlohy strukturovaného streamování mají další omezení v závislosti na modulu Databricks Runtime a režimu přístupu. Viz standardní požadavky na výpočetní prostředky a omezení apožadavky a omezení vyhrazených výpočetních prostředků.
Databricks vydává nové funkce, které tento seznam pravidelně zmenšuje.
Skupiny, které byly dříve vytvořeny v pracovním prostoru (to znamená skupiny na úrovni pracovního prostoru), nelze použít v příkazech katalogu
GRANTUnity. Tím zajistíte konzistentní zobrazení skupin, které můžou překlenovat mezi pracovními prostory. Pokud chcete používat skupiny vGRANTpříkazech, vytvořte skupiny na úrovni účtu a aktualizujte všechny automatizace pro správu identit nebo skupin (jako jsou konektory SCIM, Okta a Microsoft Entra ID a také konektor Terraform), aby namísto odkazů na koncové body pracovního prostoru odkazovaly na koncové body účtu. Viz Zdroje skupin.Úlohy v jazyce R nepodporují použití dynamických zobrazení pro zabezpečení na úrovni řádků nebo sloupců na výpočetních prostředcích, na kterých běží Databricks Runtime 15.3 a novější.
- Pro úlohy v R, které dotazují dynamická zobrazení, použijte vyhrazený výpočetní prostředek s modulem Databricks Runtime 15.4 LTS nebo novějším. Takové úlohy také vyžadují pracovní prostor, který je povolený pro bezserverové výpočetní prostředky. Podrobnosti najdete v tématu Jemně odstupňované řízení přístupu u vyhrazených výpočetních prostředků.
Spravovaná tabulka se dá naklonovat do jiné spravované tabulky ve službě Databricks Runtime 13.3 LTS a vyšší. Externí tabulka může být mělkou klonována do jiné externí tabulky ve verzi Databricks Runtime 14.2 a vyšší. Spravovanou tabulku nelze naklonovat na externí tabulku. Externí tabulku také nelze mělkým klonováním převést na spravovanou tabulku. Další informace naleznete v tématu Shallow clone for Unity Catalog tables.
Kontejnery nejsou podporovány pro tabulky katalogu Unity. Pokud spustíte příkazy, které se pokusí vytvořit segmentovanou tabulku v Unity Catalogu, vyvolá to výjimku.
Zápis do stejné cesty nebo tabulky Delta Lake z pracovních prostorů ve více oblastech může vést k nespolehlivému výkonu, pokud některé clustery přistupují k Unity Catalog a jiné ne.
Manipulace s oddíly pro externí tabulky pomocí příkazů, jako je
ALTER TABLE ADD PARTITIONnapříklad vyžaduje povolení protokolování metadat oddílů. Podívejte se na identifikaci oddílů pro externí tabulky.Při použití režimu přepsání pro tabulky, které nejsou ve formátu Delta, musí mít uživatel oprávnění CREATE TABLE nadřazeného schématu a musí být vlastníkem existujícího objektu NEBO mít oprávnění MODIFY k objektu.
Funkce definované uživatelem (UDF) v Pythonu nejsou podporovány v Databricks Runtime 12.2 LTS a nižších verzích. To zahrnuje UDAFs, UDTFs a pandas na Sparku (
applyInPandasamapInPandas). Skalární UDF v Pythonu jsou podporovány v Databricks Runtime 13.3 LTS a vyšších.Scala UDF nejsou podporovány v Databricks Runtime 14.1 a starších verzích na výpočetních prostředcích s běžným režimem přístupu. Skalární UDFs jsou podporovány v Databricks Runtime verze 14.2 a novější na výpočetním prostředí se standardním režimem přístupu.
Standardní vláknové pooly Scala nejsou podporovány. Místo toho použijte ve
org.apache.spark.util.ThreadUtilsspeciální vláknové fondy, napříkladorg.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool. Následující fondyThreadUtilsvláken však nejsou podporovány:ThreadUtils.newForkJoinPoola žádnýScheduledExecutorServicefond vláken.
- Azure logy diagnostiky ukládají pouze události katalogu Unity na úrovni pracovního prostoru. Pokud chcete zobrazit akce na úrovni účtu, musíte použít systémovou tabulku protokolu auditu. Viz Referenční informace k systémové tabulce protokolu auditu.
Modely zaregistrované v katalogu Unity mají další omezení. Viz Omezení.
Kvóty prostředků
Katalog Unity vynucuje kvóty prostředků pro všechny zabezpečitelné objekty. Tyto kvóty jsou uvedené v omezeních prostředků. Pokud očekáváte překročení těchto limitů prostředků, obraťte se na svůj tým účtů Azure Databricks.
Využití kvóty můžete monitorovat pomocí rozhraní API kvót katalogu Unity. Viz Monitorování vašeho využití kvót prostředků katalogu Unity.