Vytvoření metastore v katalogu Unity

Tento článek ukazuje, jak vytvořit metastore katalogu Unity a propojit ho s pracovními prostory.

Důležité

Pro pracovní prostory, které byly povoleny pro Katalog Unity automaticky, jsou pokyny v tomto článku zbytečné. Databricks začala automaticky povolovat nové pracovní prostory pro Katalog Unity 9. listopadu 2023 s postupným zaváděním napříč účty. Pokyny v tomto článku musíte dodržovat jenom v případě, že máte pracovní prostor a nemáte v oblasti pracovního prostoru metastor. Pokud chcete zjistit, jestli metastor již ve vaší oblasti existuje, přečtěte si téma Automatické povolení katalogu Unity.

Metastore je kontejner nejvyšší úrovně pro data v katalogu Unity. Metastory katalogu Unity registrují metadata o zabezpečitelných objektech (například tabulkách, svazcích, externích umístěních a sdílených složkách) a oprávněních, která k nim řídí přístup. Každý metastor zveřejňuje tříúrovňový obor názvů (catalog.schema.table), podle kterého lze data uspořádat. Pro každou oblast, ve které vaše organizace pracuje, musíte mít jeden metastor. Aby uživatelé mohli pracovat s katalogem Unity, musí být v pracovním prostoru připojeném k metastoru ve své oblasti.

Pokud chcete vytvořit metastore, postupujte takto:

  1. V účtu Azure volitelně vytvořte umístění úložiště pro úložiště na úrovni metastoru spravovaných tabulek a svazků.

    Informace, které vám pomůžou rozhodnout, jestli potřebujete úložiště na úrovni metastoru, najdete v tématu (Volitelné) Vytvoření úložiště na úrovni metastoru a fyzicky oddělená data v úložišti.

  2. Ve svém účtu Azure vytvořte spravovanou identitu Azure nebo instanční objekt, který poskytuje přístup k tomuto umístění úložiště.

  3. V Azure Databricks vytvořte metastore, připojte umístění úložiště a přiřaďte pracovní prostory k metastoru.

Poznámka:

Kromě přístupů popsaných v tomto článku můžete metastor vytvořit také pomocí zprostředkovatele Databricks Terraform, konkrétně databricks_metastore prostředku. Pokud chcete katalog Unity povolit přístup k metastoru, použijte databricks_metastore_data_access. Pokud chcete propojit pracovní prostory s metastorem, použijte databricks_metastore_assignment.

Než začnete

Než začnete, měli byste se seznámit se základními koncepty katalogu Unity, včetně metastorů a spravovaného úložiště. Viz téma Co je katalog Unity?.

Měli byste také potvrdit, že splňujete následující požadavky pro všechny kroky nastavení:

  • Musíte být správcem účtu Azure Databricks.

    První správce účtu Azure Databricks musí být globálním Správa istratorem Microsoft Entra ID (dříve Azure Active Directory), který se poprvé přihlásí ke konzole účtu Azure Databricks. Po prvním přihlášení se tento uživatel stane správcem účtu Azure Databricks a už pro přístup k účtu Azure Databricks nepotřebuje globální roli Id Microsoft Entra ID Správa istratoru. První správce účtu může přiřadit uživatele v tenantovi Microsoft Entra ID jako další správce účtů (kteří sami můžou přiřadit více správců účtů). Další správci účtu nevyžadují v ID Microsoft Entra konkrétní role.

  • Pracovní prostory, které připojíte k metastoru, musí být v plánu Azure Databricks Premium.

  • Pokud chcete nastavit kořenové úložiště na úrovni metastoru, musíte mít oprávnění k vytvoření následujících položek ve vašem tenantovi Azure:

Krok 1 (volitelné): Vytvoření kontejneru úložiště pro spravované úložiště na úrovni metastoru

V tomto kroku, který je volitelný, vytvoříte účet úložiště a kontejner pro ukládání spravovaných tabulek a dat svazků na úrovni metastoru. Pokud chcete zjistit, jestli potřebujete úložiště na úrovni metastoru, přečtěte si téma (Volitelné) Vytvoření úložiště na úrovni metastoru.

  1. Vytvořte účet úložiště pro Azure Data Lake Storage Gen2.

    Tento účet úložiště bude obsahovat spravované tabulky a svazky katalogu Unity. Musí to být účet Azure Data Lake Storage Gen2 ve stejné oblasti jako pracovní prostory Azure Databricks. Viz Vytvoření účtu úložiště pro použití s Azure Data Lake Storage Gen2.

  2. Vytvořte kontejner úložiště, který bude obsahovat spravované tabulky a data svazků na úrovni metastoru.

    Pro každou oblast můžete vytvořit pouze jeden metastor. Pro kontejner metastoru a úložiště musíte použít stejnou oblast.

    Toto výchozí umístění úložiště na úrovni metastoru lze přepsat na úrovni katalogu a schématu. Viz Spravované úložiště.

    Poznamenejte si identifikátor URI ADLSv2 pro kontejner, který je v následujícím formátu:

    abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
    

    V následujících krocích nahraďte <storage-container> tímto identifikátorem URI.

Krok 2 (volitelné): Vytvoření spravované identity pro přístup k umístění spravovaného úložiště

V tomto kroku, který se vyžaduje jenom v případě, že jste dokončili krok 1, vytvoříte přístupový konektor Azure Databricks, který obsahuje spravovanou identitu a udělíte mu přístup ke kontejneru úložiště.

Postupujte podle pokynů v tématu Použití spravovaných identit Azure v Katalogu Unity pro přístup k úložišti.

Poznámka:

Jako identitu, která poskytuje přístup ke kontejneru úložiště metastoru, můžete použít spravovanou identitu Azure nebo instanční objekt. Databricks důrazně doporučuje spravované identity, protože nevyžadují údržbu přihlašovacích údajů nebo obměňování tajných kódů a umožňují připojení k účtu Azure Data Lake Storage Gen2, který je chráněný bránou firewall úložiště. Pokud chcete použít instanční objekt, přečtěte si téma Vytvoření spravovaného úložiště Katalogu Unity pomocí instančního objektu (starší verze).

Krok 3: Vytvoření metastoru a připojení pracovního prostoru

Každá oblast Azure Databricks vyžaduje vlastní metastore katalogu Unity.

Pro každou oblast, ve které vaše organizace pracuje, vytvoříte metastor. Každý z těchto regionálních metastorů můžete propojit s libovolným počtem pracovních prostorů v dané oblasti. Každý propojený pracovní prostor má stejné zobrazení dat v metastoru a řízení přístupu k datům je možné spravovat napříč pracovními prostory. K datům v jiných metastorech můžete přistupovat pomocí rozdílového sdílení.

Pokud jste se rozhodli vytvořit úložiště na úrovni metastoru, bude metastor používat kontejner úložiště a spravovanou identitu Azure, kterou jste vytvořili v předchozích krocích.

Vytvoření metastoru:

  1. Pokud jste se rozhodli vytvořit úložiště na úrovni metastoru, ujistěte se, že máte cestu ke kontejneru úložiště a ID prostředku přístupového konektoru Azure Databricks, který jste vytvořili v předchozí úloze.

  2. Přihlaste se ke svému pracovnímu prostoru jako správce účtu.

  3. Klikněte na své uživatelské jméno v horním panelu pracovního prostoru Azure Databricks a vyberte Spravovat účet.

  4. Přihlaste se ke konzole účtu Azure Databricks.

  5. Klikněte na Ikona kataloguKatalog.

  6. Klikněte na Vytvořit metastore.

  7. Zadejte následující údaje:

    • Název metastoru.

    • Oblast , kde se metastor nasadí.

      Musí být ve stejné oblasti jako pracovní prostory, které chcete použít pro přístup k datům. Pokud jste se rozhodli vytvořit kontejner úložiště pro úložiště na úrovni metastoru, musí být tato oblast také stejná.

    • (Volitelné) Cesta ADLS Gen2: Zadejte cestu ke kontejneru úložiště, který použijete jako kořenové úložiště pro metastore.

      Předpona abfss:// se přidá automaticky.

    • (Volitelné) ID Připojení oru: Zadejte ID prostředku konektoru pro přístup k Azure Databricks ve formátu:

      /subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
      
  8. Klikněte na Vytvořit.

  9. Po zobrazení výzvy vyberte pracovní prostory, které chcete propojit s metastorem.

    Podrobnosti najdete v tématu Povolení pracovního prostoru pro katalog Unity.

  10. Přeneste roli správce metastoru do skupiny.

    Uživatel, který vytváří metastor, je jeho vlastníkem, označovaný také jako správce metastoru. Správce metastoru může vytvářet objekty nejvyšší úrovně v metastoru, jako jsou katalogy, a může spravovat přístup k tabulkám a dalším objektům. Databricks doporučuje znovu přiřadit roli správce metastoru ke skupině. Viz Přiřazení správce metastoru.

  11. Povolte správu nahrávání do spravovaných svazků ve službě Azure Databricks.

    Azure Databricks používá sdílení prostředků mezi zdroji (CORS) k nahrání dat do spravovaných svazků v katalogu Unity. Viz Konfigurace účtu úložiště Katalogu Unity pro CORS.

Další kroky

Přidání spravovaného úložiště do existujícího metastoru

Spravované úložiště na úrovni metastoru je volitelné a není součástí automaticky vytvořených metastorů. Pokud dáváte přednost modelu izolace dat, který ukládá data centrálně pro více pracovních prostorů, můžete do metastoru přidat úložiště na úrovni metastoru. Úložiště na úrovni metastoru potřebujete, pokud chcete sdílet poznámkové bloky pomocí rozdílového sdílení nebo pokud jste partner Azure Databricks, který používá osobní pracovní umístění.

Viz také spravované úložiště.

Požadavky

  • K metastoru katalogu Unity musíte mít připojený alespoň jeden pracovní prostor.
  • Požadovaná oprávnění Azure Databricks:
    • Pokud chcete vytvořit externí umístění, musíte být správcem metastoru nebo uživatelem s oprávněnímiCREATE EXTERNAL LOCATION.CREATE STORAGE CREDENTIAL
    • Pokud chcete do definice metastoru přidat umístění úložiště, musíte být správcem účtu. Pokyny k povolení role správce účtu ve vašem účtu najdete v tématu Vytvoření prvního správce účtu.
  • Požadovaná oprávnění tenanta Azure:
    • Oprávnění k vytvoření účtu úložiště pro použití s Azure Data Lake Storage Gen2 Tento účet úložiště musí mít hierarchický obor názvů. Viz Vytvoření účtu úložiště pro použití s Azure Data Lake Storage Gen2.
    • Oprávnění k vytvoření nového prostředku pro uložení spravované identity přiřazené systémem To vyžaduje, abyste byl přispěvatelem nebo vlastníkem skupiny prostředků v libovolném předplatném v tenantovi.

Krok 1: Vytvoření umístění úložiště

Postupujte podle pokynů v kroku 1 (volitelné): Vytvořte kontejner úložiště pro spravované úložiště na úrovni metastoru a krok 2 (volitelné): Vytvořte spravovanou identitu pro přístup ke spravovanému umístění úložiště a vytvořte kontejner úložiště v Azure Data Lake Storage Gen2 a přístupový konektor Azure Databricks, který obsahuje spravovanou identitu, která má přístup ke kontejneru úložiště.

Krok 2: Vytvoření externího umístění v katalogu Unity

V tomto kroku vytvoříte v katalogu Unity externí umístění, které odkazuje na cestu ADLS Gen2, kterou jste právě vytvořili.

  1. Vytvořte přihlašovací údaje úložiště.

    Přihlašovací údaje úložiště budou představovat spravovanou identitu Azure, kterou jste vytvořili v kroku 1: Vytvoření umístění úložiště.

    Postupujte podle pokynů v tématu Vytvoření přihlašovacích údajů úložiště pro připojení k Azure Data Lake Storage Gen2.

  2. Vytvořte externí umístění, které odkazuje na přihlašovací údaje úložiště, které jste vytvořili v předchozím kroku, a kontejner úložiště ADLS Gen2, který jste vytvořili v kroku 1: Vytvoření umístění úložiště.

    Postupujte podle pokynů v tématu Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks.

  3. Udělte si CREATE MANAGED STORAGE oprávnění k externímu umístění.

    1. Kliknutím na název externího umístění otevřete podokno podrobností.
    2. Na kartě Oprávnění klikněte na Udělit.
    3. V dialogovém okně Udělit <external location> v dialogovém okně vyberte sami sebe v poli Objekty zabezpečení a vyberte CREATE MANAGED STORAGE.
    4. Klikněte na Udělit.

Krok 3: Přidání umístění úložiště do metastoru

Po vytvoření externího umístění, které představuje kontejner úložiště metastoru, můžete ho přidat do metastoru.

  1. Jako správce účtu se přihlaste ke konzole účtu.

  2. Klikněte na Ikona kataloguKatalog.

  3. Klikněte na název metastoru.

  4. Ověřte, že jste Správa metastoru.

    Pokud nejste, klikněte na Upravit a přiřaďte se jako správce metastoru. Až budete s tímto postupem hotovi, můžete zrušit přiřazení sami sebe.

  5. Na kartě Konfigurace vedle cesty ADLS Gen2 klikněte na Nastavit.

  6. V dialogovém okně Nastavit kořen metastoru zadejte cestu ADLS Gen2, kterou jste použili k vytvoření externího umístění, a klikněte na tlačítko Aktualizovat.

    Tuto cestu nelze změnit, jakmile ji nastavíte.

Odstranění metastoru

Pokud zavřete účet Azure Databricks nebo máte jiný důvod k odstranění přístupu k datům spravovaným metastorem katalogu Unity, můžete metastor odstranit.

Upozorňující

Všechny objekty spravované metastorem budou nepřístupné pomocí pracovních prostorů Azure Databricks. Tuto akci nejde vrátit zpátky.

Data a metadata spravované tabulky se automaticky odstraní po 30 dnech. Odstraněním metastoru neovlivní data externí tabulky ve vašem cloudovém úložišti.

Odstranění metastoru:

  1. Jako správce metastoru se přihlaste ke konzole účtu.
  2. Klikněte na Ikona kataloguKatalog.
  3. Klikněte na název metastoru.
  4. Na kartě Konfigurace klikněte na nabídku se třemi tlačítky v pravém horním rohu a vyberte Odstranit.
  5. V potvrzovací dialogovém okně zadejte název metastoru a klikněte na Odstranit.