Vytvoření metastore v katalogu Unity
Tento článek ukazuje, jak vytvořit metastore katalogu Unity a propojit ho s pracovními prostory.
Důležité
Pro pracovní prostory, které byly povoleny pro Katalog Unity automaticky, jsou pokyny v tomto článku zbytečné. Databricks začala automaticky povolovat nové pracovní prostory pro Katalog Unity 9. listopadu 2023 s postupným zaváděním napříč účty. Pokyny v tomto článku musíte dodržovat jenom v případě, že máte pracovní prostor a nemáte v oblasti pracovního prostoru metastor. Pokud chcete zjistit, jestli metastor již ve vaší oblasti existuje, přečtěte si téma Automatické povolení katalogu Unity.
Metastore je kontejner nejvyšší úrovně pro data v katalogu Unity. Metastory katalogu Unity registrují metadata o zabezpečitelných objektech (například tabulkách, svazcích, externích umístěních a sdílených složkách) a oprávněních, která k nim řídí přístup. Každý metastor zveřejňuje tříúrovňový obor názvů (catalog
.schema
.table
), podle kterého lze data uspořádat. Pro každou oblast, ve které vaše organizace pracuje, musíte mít jeden metastor. Aby uživatelé mohli pracovat s katalogem Unity, musí být v pracovním prostoru připojeném k metastoru ve své oblasti.
Pokud chcete vytvořit metastore, postupujte takto:
V účtu Azure volitelně vytvořte umístění úložiště pro úložiště na úrovni metastoru spravovaných tabulek a svazků.
Informace, které vám pomůžou rozhodnout, jestli potřebujete úložiště na úrovni metastoru, najdete v tématu (Volitelné) Vytvoření úložiště na úrovni metastoru a fyzicky oddělená data v úložišti.
Ve svém účtu Azure vytvořte spravovanou identitu Azure nebo instanční objekt, který poskytuje přístup k tomuto umístění úložiště.
V Azure Databricks vytvořte metastore, připojte umístění úložiště a přiřaďte pracovní prostory k metastoru.
Poznámka:
Kromě přístupů popsaných v tomto článku můžete metastor vytvořit také pomocí zprostředkovatele Databricks Terraform, konkrétně databricks_metastore prostředku. Pokud chcete katalog Unity povolit přístup k metastoru, použijte databricks_metastore_data_access. Pokud chcete propojit pracovní prostory s metastorem, použijte databricks_metastore_assignment.
Než začnete
Než začnete, měli byste se seznámit se základními koncepty katalogu Unity, včetně metastorů a spravovaného úložiště. Viz téma Co je katalog Unity?.
Měli byste také potvrdit, že splňujete následující požadavky pro všechny kroky nastavení:
Musíte být správcem účtu Azure Databricks.
Prvním správcem účtu Azure Databricks musí být globální správce Microsoft Entra ID v době, kdy se poprvé přihlásí ke konzole účtu Azure Databricks. Po prvním přihlášení se tento uživatel stane správcem účtu Azure Databricks a už pro přístup k účtu Azure Databricks nepotřebuje roli globálního správce Microsoft Entra ID. První správce účtu může přiřadit uživatele v tenantovi Microsoft Entra ID jako další správce účtů (kteří sami můžou přiřadit více správců účtů). Další správci účtu nevyžadují v ID Microsoft Entra konkrétní role.
Pracovní prostory, které připojíte k metastoru, musí být v plánu Azure Databricks Premium.
Pokud chcete nastavit kořenové úložiště na úrovni metastoru, musíte mít oprávnění k vytvoření následujících položek ve vašem tenantovi Azure:
- Účet úložiště, který se má použít s Azure Data Lake Storage Gen2. Viz Vytvoření účtu úložiště pro použití s Azure Data Lake Storage Gen2.
- Nový prostředek, který bude obsahovat spravovanou identitu přiřazenou systémem. To vyžaduje, abyste byl přispěvatelem nebo vlastníkem skupiny prostředků v libovolném předplatném v tenantovi.
Krok 1 (volitelné): Vytvoření kontejneru úložiště pro spravované úložiště na úrovni metastoru
V tomto kroku, který je volitelný, vytvoříte účet úložiště a kontejner pro ukládání spravovaných tabulek a dat svazků na úrovni metastoru. Pokud chcete zjistit, jestli potřebujete úložiště na úrovni metastoru, přečtěte si téma (Volitelné) Vytvoření úložiště na úrovni metastoru.
Vytvořte účet úložiště pro Azure Data Lake Storage Gen2.
Tento účet úložiště bude obsahovat spravované tabulky a svazky katalogu Unity. Musí to být účet Azure Data Lake Storage Gen2 ve stejné oblasti jako pracovní prostory Azure Databricks. Viz Vytvoření účtu úložiště pro použití s Azure Data Lake Storage Gen2.
Vytvořte kontejner úložiště, který bude obsahovat spravované tabulky a data svazků na úrovni metastoru.
Pro každou oblast můžete vytvořit pouze jeden metastor. Pro kontejner metastoru a úložiště musíte použít stejnou oblast.
Toto umístění úložiště na úrovni metastoru lze přepsat na úrovni katalogu a schématu. Viz Určení spravovaného umístění úložiště v katalogu Unity.
Poznamenejte si identifikátor URI ADLSv2 pro kontejner, který je v následujícím formátu:
abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
V následujících krocích nahraďte
<storage-container>
tímto identifikátorem URI.
Krok 2 (volitelné): Vytvoření spravované identity pro přístup k umístění spravovaného úložiště
V tomto kroku, který se vyžaduje jenom v případě, že jste dokončili krok 1, vytvoříte přístupový konektor Azure Databricks, který obsahuje spravovanou identitu a udělíte mu přístup ke kontejneru úložiště.
Postupujte podle pokynů v tématu Použití spravovaných identit Azure v Katalogu Unity pro přístup k úložišti.
Poznámka:
Jako identitu, která poskytuje přístup ke kontejneru úložiště metastoru, můžete použít spravovanou identitu Azure nebo instanční objekt. Databricks důrazně doporučuje spravované identity, protože nevyžadují údržbu přihlašovacích údajů nebo obměňování tajných kódů a umožňují připojení k účtu Azure Data Lake Storage Gen2, který je chráněný bránou firewall úložiště. Pokud chcete použít instanční objekt, přečtěte si téma Vytvoření spravovaného úložiště Katalogu Unity pomocí instančního objektu (starší verze).
Krok 3: Vytvoření metastoru a připojení pracovního prostoru
Každá oblast Azure Databricks vyžaduje vlastní metastore katalogu Unity.
Pro každou oblast, ve které vaše organizace pracuje, vytvoříte metastor. Každý z těchto regionálních metastorů můžete propojit s libovolným počtem pracovních prostorů v dané oblasti. Každý propojený pracovní prostor má stejné zobrazení dat v metastoru a řízení přístupu k datům je možné spravovat napříč pracovními prostory. K datům v jiných metastorech můžete přistupovat pomocí rozdílového sdílení.
Pokud jste se rozhodli vytvořit úložiště na úrovni metastoru, bude metastor používat kontejner úložiště a spravovanou identitu Azure, kterou jste vytvořili v předchozích krocích.
Vytvoření metastoru:
Pokud jste se rozhodli vytvořit úložiště na úrovni metastoru, ujistěte se, že máte cestu ke kontejneru úložiště a ID prostředku přístupového konektoru Azure Databricks, který jste vytvořili v předchozí úloze.
Přihlaste se ke svému pracovnímu prostoru jako správce účtu.
Klikněte na své uživatelské jméno v horním panelu pracovního prostoru Azure Databricks a vyberte Spravovat účet.
Přihlaste se ke konzole účtu Azure Databricks.
Klikněte na Katalog.
Klikněte na Vytvořit metastore.
Zadejte následující údaje:
Název metastoru.
Oblast , kde se metastor nasadí.
Musí být ve stejné oblasti jako pracovní prostory, které chcete použít pro přístup k datům. Pokud jste se rozhodli vytvořit kontejner úložiště pro úložiště na úrovni metastoru, musí být tato oblast také stejná.
(Volitelné) Cesta ADLS Gen2: Zadejte cestu ke kontejneru úložiště, který použijete jako kořenové úložiště pro metastore.
Předpona
abfss://
se přidá automaticky.(Volitelné) ID přístupového konektoru: Zadejte ID prostředku konektoru pro přístup k Azure Databricks ve formátu:
/subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
Klikněte na Vytvořit.
Po zobrazení výzvy vyberte pracovní prostory, které chcete propojit s metastorem.
Podrobnosti najdete v tématu Povolení pracovního prostoru pro katalog Unity.
Přeneste roli správce metastoru do skupiny.
Uživatel, který vytváří metastor, je jeho vlastníkem, označovaný také jako správce metastoru. Správce metastoru může vytvářet objekty nejvyšší úrovně v metastoru, jako jsou katalogy, a může spravovat přístup k tabulkám a dalším objektům. Databricks doporučuje znovu přiřadit roli správce metastoru ke skupině. Viz Přiřazení správce metastoru.
Povolte správu nahrávání do spravovaných svazků ve službě Azure Databricks.
Azure Databricks používá sdílení prostředků mezi zdroji (CORS) k nahrání dat do spravovaných svazků v katalogu Unity. Viz Konfigurace účtu úložiště Katalogu Unity pro CORS.