Co jsou katalogy v Azure Databricks?
Katalog je primární jednotka organizace dat v modelu zásad správného řízení dat v katalogu Azure Databricks Unity. Tento článek poskytuje přehled katalogů v katalogu Unity a o tom, jak je nejlépe používat.
Katalogy jsou první vrstvou v oboru názvůcatalog.schema.table-etc
tří úrovní () v Katalogu Unity. Obsahují schémata, která pak můžou obsahovat tabulky, zobrazení, svazky, modely a funkce. Katalogy jsou zaregistrované v metastoru katalogu Unity ve vašem účtu Azure Databricks.
Jak mám data uspořádat do katalogů?
Při návrhu modelu zásad správného řízení dat byste měli pečlivě uvažovat o katalogech, které vytvoříte. Jako nejvyšší úroveň modelu zásad správného řízení dat vaší organizace by každý katalog měl představovat logickou jednotku izolace dat a logickou kategorii přístupu k datům, což umožňuje efektivní hierarchii udělení toku do schémat a datových objektů, které obsahují. Katalogy proto často zrcadlí organizační jednotky nebo obory životního cyklu vývoje softwaru. Můžete se například rozhodnout, že budete mít katalog pro produkční data a katalog pro vývojová data nebo katalog pro data, která nejsou zákazníky, a ten pro citlivá zákaznická data.
Izolace dat pomocí katalogů
Každý katalog má obvykle vlastní spravované umístění úložiště pro ukládání spravovaných tabulek a svazků a poskytuje izolaci fyzických dat na úrovni katalogu. Můžete se také rozhodnout ukládat data na úrovni metastoru a poskytnout tak výchozí umístění úložiště pro katalogy, které nemají vlastní spravované umístění úložiště. Úložiště můžete přidat na úrovni schématu pro podrobnější izolaci dat.
Vzhledem k tomu, že váš účet Azure Databricks má jeden metastore na oblast, jsou katalogy ze své podstaty izolované podle oblasti.
Další informace najdete v tématu Co jsou databázové objekty v Azure Databricks? a Data jsou fyzicky oddělená v úložišti.
Oprávnění na úrovni katalogu
Vzhledem k tomu, že granty pro jakýkoli objekt katalogu Unity dědí podřízené objekty, vlastní katalog nebo mají obecná oprávnění v katalogu je velmi výkonná. Vlastníci katalogu mají například všechna oprávnění k katalogu a objektům v katalogu a můžou udělit přístup k libovolnému objektu v katalogu. Uživatelé s SELECT
katalogem můžou číst libovolnou tabulku v katalogu. Uživatelé s CREATE TABLE
katalogem mohou vytvořit tabulku v libovolném schématu v katalogu.
Pokud chcete vynutit princip nejnižších oprávnění, kdy mají uživatelé minimální přístup, který potřebují k provádění požadovaných úloh, obvykle udělíte přístup pouze konkrétním objektům nebo úrovni v hierarchii, které uživatel vyžaduje. Oprávnění na úrovni katalogu ale umožňují vlastníkovi katalogu spravovat, co mohou vlastníci objektů nižší úrovně udělit. I když má uživatel udělený přístup k datovému objektu nízké úrovně, například k tabulce, nemůže k této tabulce přistupovat, pokud nemá USE CATALOG
oprávnění k katalogu, který tabulku obsahuje.
Další informace najdete v tématu Správa vlastnictví objektů katalogu Unity, obecné typy oprávnění katalogu Unity a zásady správného řízení dat a stavební bloky izolace dat.
Typy katalogů
Při vytváření katalogu máte dvě možnosti:
- Standardní katalog: typický katalog, který se používá jako primární jednotka k uspořádání datových objektů v katalogu Unity. Toto je typ katalogu, který je popsán v tomto článku.
- Cizí katalog: Objekt katalogu Unity, který se používá pouze ve scénářích Federace Lakehouse. Cizí katalog zrcadlí databázi v externím datovém systému, což umožňuje provádět dotazy jen pro čtení v daném datovém systému v pracovním prostoru Azure Databricks. Podívejte se , co je Federace Lakehouse?.
Kromě těchto dvou typů katalogu Azure Databricks automaticky zřídí následující katalogy při vytváření nového pracovního prostoru:
hive_metastore
catalog: Toto je úložiště všech dat spravovaných starší verzí metastoru Hive v pracovních prostorech Azure Databricks. Pokud se existující pracovní prostor katalogu Unity převede na katalog Unity, zobrazí se všechny objekty zaregistrované ve starším metastoru Hive v katalogu Unity.hive_metastore
Informace o práci s metastorem Hive společně s katalogem Unity najdete v tématu Práce s katalogem Unity a starším metastorem Hive. Metastore Hive je zastaralý a všechny pracovní prostory Azure Databricks by se měly migrovat do katalogu Unity.- Katalog pracovních prostorů: Ve všech nových pracovních prostorech se tento katalog vytvoří ve výchozím nastavení. Obvykle sdílí název pracovního prostoru s názvem vašeho pracovního prostoru. Pokud tento katalog existuje, mají všichni uživatelé ve vašem pracovním prostoru (a jenom k vašemu pracovnímu prostoru) ve výchozím nastavení přístup, což uživatelům umožňuje vyzkoušet proces vytváření a přístupu k datovým objektům v katalogu Unity. Viz krok 1: Ověřte, že je pro katalog Unity povolený váš pracovní prostor.
Výchozí katalog
Pro každý pracovní prostor, který je povolený pro katalog Unity, je nakonfigurovaný výchozí katalog. Výchozí katalog umožňuje provádět datové operace bez zadání katalogu. Pokud při provádění operací s daty vynecháte název katalogu nejvyšší úrovně, předpokládá se výchozí katalog.
Pokud byl váš pracovní prostor pro katalog Unity povolen automaticky, jako výchozí katalog se zadává předem zřízený katalog pracovních prostorů. Správce pracovního prostoru může podle potřeby změnit výchozí katalog.
Podrobnosti najdete v tématu Správa výchozího katalogu.
Vazba katalogu pracovních prostorů
Pokud k izolaci přístupu k datům uživatelů používáte pracovní prostory, můžete chtít použít vazby katalogu pracovních prostorů. Vazby katalogu pracovních prostorů umožňují omezit přístup k katalogu podle hranic pracovního prostoru. Můžete například zajistit, aby správci a uživatelé pracovního prostoru měli přístup pouze k produkčním datům z prod_catalog
produkčního prostředí prod_workspace
pracovního prostoru. Katalogy se sdílí se všemi pracovními prostory připojenými k aktuálnímu metastoru, pokud nezadáte vazbu. Viz Uspořádání dat a Omezení přístupu katalogu ke konkrétním pracovním prostorům.
Pokud byl váš pracovní prostor pro katalog Unity povolen automaticky, je předem zřízený katalog pracovních prostorů ve výchozím nastavení svázán s vaším pracovním prostorem.