Megosztás a következőn keresztül:


Unity Catalog-metaadattár létrehozása

Ez a cikk bemutatja, hogyan hozhat létre unitykatalógus-metaadattárat, és hogyan csatolhatja munkaterületekhez.

Fontos

A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében a cikkben szereplő utasítások szükségtelenek. A Databricks 2023. november 9-én kezdte el automatikusan engedélyezni a Unity Catalog új munkaterületeit, és a fiókok közötti bevezetés fokozatosan haladt. Csak akkor kövesse a cikkben leírt utasításokat, ha van munkaterülete, és még nem rendelkezik metaadattárval a munkaterület régiójában. Annak megállapításához, hogy egy metaadattár már létezik-e a régióban, tekintse meg a Unity Catalog automatikus engedélyezését.

A metaadattár a Unity Catalog adatainak legfelső szintű tárolója. A Unity Catalog metaadattárai metaadatokat regisztrálnak a biztonságos objektumokról (például táblákról, kötetekről, külső helyekről és megosztásokról), valamint az ezekhez való hozzáférést szabályozó engedélyekről. Minden metaadattár egy háromszintű névteret (catalog.schema.table) tesz elérhetővé, amellyel az adatok rendszerezhetők. Minden olyan régióhoz, ahol a szervezet működik, egy metaadattárat kell tartalmaznia. A Unity Catalog használatához a felhasználóknak olyan munkaterületen kell lenniük, amely a régiójukban található metaadattárhoz van csatolva.

Metaadattár létrehozásához tegye a következőket:

  1. Az Azure-fiókjában szükség esetén hozzon létre egy tárolóhelyet a felügyelt táblák és kötetek metaadattárszintű tárolásához.

    Ha szeretné eldönteni, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozása és az adatok fizikailag elválasztva a tárolóban című témakört.

  2. Az Azure-fiókjában hozzon létre egy Azure-beli felügyelt identitást vagy szolgáltatásnevet, amely hozzáférést biztosít az adott tárolási helyhez.

  3. Az Azure Databricksben hozza létre a metaadattárat, csatolja a tárolási helyet, és rendeljen munkaterületeket a metaadattárhoz.

Feljegyzés

A cikkben ismertetett megközelítéseken kívül metaadattárat is létrehozhat a Databricks Terraform szolgáltatóval, különösen a databricks_metastore erőforrással. Ha engedélyezni szeretné a Unity Catalog számára a metaadattár elérését, használja a databricks_metastore_data_access. A munkaterületek metaadattárhoz való csatolásához használja a databricks_metastore_assignment.

Mielőtt elkezdené

Mielőtt hozzákezdene, ismerkedjen meg a Unity Catalog alapfogalmaival, beleértve a metaadattárakat és a felügyelt tárolókat. Lásd a Mi az a Unity katalógus? témakört.

Azt is ellenőriznie kell, hogy megfelel-e az összes beállítási lépésre vonatkozó alábbi követelményeknek:

  • Azure Databricks-fiókadminisztrátornak kell lennie.

    Az első Azure Databricks-fiók rendszergazdájának Microsoft Entra-azonosítójú globális rendszergazdának kell lennie, amikor először jelentkezik be az Azure Databricks-fiókkonzolra. Az első bejelentkezéskor a felhasználó Azure Databricks-fiókadminisztrátor lesz, és már nincs szüksége a Microsoft Entra ID globális rendszergazdai szerepkörre az Azure Databricks-fiók eléréséhez. Az első fiókadminisztrátor további fiókadminisztrátorként további fiókadminisztrátorként rendelhet felhasználókat a Microsoft Entra ID-bérlőhöz (akik maguk is hozzárendelhetnek további fiókadminisztrátorokat). A további fiókadminisztrátoroknak nincs szükségük meghatározott szerepkörökre a Microsoft Entra-azonosítóban.

  • A metaadattárhoz csatolt munkaterületeknek az Azure Databricks Premium-csomagban kell lenniük.

  • Ha metaadattárszintű gyökértárolót szeretne beállítani, rendelkeznie kell a következők azure-bérlőben való létrehozásához szükséges engedéllyel:

    • Az Azure Data Lake Storage Gen2-vel használható tárfiók. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.
    • Egy új erőforrás, amely egy rendszer által hozzárendelt felügyelt identitást tárol. Ehhez a bérlő bármely előfizetésében közreműködőnek vagy erőforráscsoport tulajdonosának kell lennie.

1. lépés (nem kötelező): Tároló létrehozása metaadattárszintű felügyelt tárolóhoz

Ebben a lépésben, amely nem kötelező, létrehoz egy tárfiókot és egy tárolót a felügyelt tábla- és kötetadatok metaadattár szintjén való tárolásához. Annak megállapításához, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozása című témakört.

  1. Hozzon létre egy tárfiókot az Azure Data Lake Storage Gen2-hez.

    Ez a tárfiók a Unity Catalog által felügyelt táblákat és köteteket fogja tartalmazni. Ennek egy Azure Data Lake Storage Gen2-fióknak kell lennie ugyanabban a régióban, mint az Azure Databricks-munkaterületek. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.

  2. Hozzon létre egy tárolót, amely a metaadattár szintjén tárolja a felügyelt táblákat és kötetadatokat.

    Régiónként csak egy metaadattár hozható létre. Ugyanazt a régiót kell használnia a metaadattárhoz és a tárolóhoz.

    Ezt a metaadattárszintű tárolóhelyet felül lehet bírálni a katalógus és a séma szintjén. Lásd: Felügyelt tárhely megadása a Unity Katalógusban.

    Jegyezze fel a tároló ADLSv2 URI-ját, amely a következő formátumban van:

    abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
    

    Az alábbi lépésekben cserélje le <storage-container> ezt az URI-t.

2. lépés (nem kötelező): Felügyelt identitás létrehozása a felügyelt tárhely eléréséhez

Ebben a lépésben, amely csak az 1. lépés elvégzése után szükséges, létre kell hoznia egy Azure Databricks hozzáférési összekötőt, amely egy felügyelt identitást tartalmaz, és hozzáférést biztosít a tárolóhoz.

Kövesse az Azure által felügyelt identitások használata a Unity Katalógusban a tárterület eléréséhez című témakör utasításait.

Feljegyzés

Használhat azure-beli felügyelt identitást vagy szolgáltatásnevet a metaadattár tárolójának hozzáférését biztosító identitásként. A Databricks határozottan javasolja a felügyelt identitásokat, mivel nem követelik meg a hitelesítő adatok karbantartását vagy a titkos kulcsok elforgatását, és lehetővé teszik, hogy egy storage tűzfallal védett Azure Data Lake Storage Gen2-fiókhoz csatlakozzon. Ha szolgáltatásnevet szeretne használni, olvassa el a Unity Catalog által felügyelt tároló létrehozása szolgáltatásnévvel (örökölt) című témakört.

3. lépés: A metaadattár létrehozása és munkaterület csatolása

Minden Azure Databricks-régióhoz saját Unity Catalog-metaadattár szükséges.

Minden olyan régióhoz létrehoz egy metaadattárat, amelyben a szervezet működik. Ezeket a regionális metaadattárakat tetszőleges számú munkaterülethez csatolhatja az adott régióban. Minden csatolt munkaterület ugyanazt a nézetet jeleníti meg a metaadattárban lévő adatokról, és az adathozzáférés-vezérlés több munkaterületen is kezelhető. Más metaadattárak adataihoz a Delta Sharing használatával férhet hozzá.

Ha metaadattárszintű tárolót szeretne létrehozni, a metaadattár az előző lépésekben létrehozott tárolót és Azure-beli felügyelt identitást fogja használni.

Metaadattár létrehozása:

  1. Ha metaadattárszintű tárolót szeretne létrehozni, győződjön meg arról, hogy rendelkezik a tároló elérési útjával és az Azure Databricks-hozzáférési összekötő erőforrás-azonosítójával, amelyet az előző feladatban hozott létre.

  2. Jelentkezzen be a munkaterületre fiókadminisztrátorként.

  3. Kattintson a felhasználónevére az Azure Databricks-munkaterület felső sávjában, és válassza a Fiók kezelése lehetőséget.

  4. Jelentkezzen be az Azure Databricks-fiókkonzolra.

  5. Kattintson a Katalógus gombra Katalógus ikon .

  6. Kattintson a Metaadattár létrehozása elemre.

  7. Adja meg a következőket:

    • A metaadattár neve .

    • Régió , ahol a metaadattár üzembe lesz helyezve.

      Ennek ugyanabban a régióban kell lennie, mint az adatok eléréséhez használni kívánt munkaterületeknek. Ha úgy döntött, hogy létrehoz egy tárolót a metaadattárszintű tároláshoz, annak a régiónak is azonosnak kell lennie.

    • (Nem kötelező) ADLS Gen 2 elérési útja: Adja meg a metaadattár gyökértárolójaként használni kívánt tároló elérési útját.

      A abfss:// rendszer automatikusan hozzáadja az előtagot.

    • (Nem kötelező) Hozzáférési összekötő azonosítója: Adja meg az Azure Databricks hozzáférési összekötő erőforrás-azonosítóját a következő formátumban:

      /subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
      
  8. Kattintson a Létrehozás gombra.

  9. Amikor a rendszer kéri, válassza ki a metaadattárra hivatkozó munkaterületeket.

    További részletekért lásd : Munkaterület engedélyezése a Unity Cataloghoz.

  10. A metaadattár-rendszergazdai szerepkör áthelyezése egy csoportba.

    A metaadattárat létrehozó felhasználó a tulajdonosa, más néven metaadattár-rendszergazda. A metaadattár rendszergazdája létrehozhat felső szintű objektumokat a metaadattárban, például katalógusokat, és kezelheti a táblákhoz és más objektumokhoz való hozzáférést. A Databricks azt javasolja, hogy rendelje hozzá újra a metaadattár-rendszergazdai szerepkört egy csoporthoz. Lásd: Metaadattár-rendszergazda hozzárendelése.

  11. A felügyelt kötetekre való feltöltések Azure Databricks-felügyeletének engedélyezése.

    Az Azure Databricks több forrásból származó erőforrás-megosztással (CORS) tölti fel az adatokat felügyelt kötetekre a Unity Catalogban. Lásd: Unity Catalog storage-fiók konfigurálása CORS-hoz.

Következő lépések