Megosztás a következőn keresztül:


Unity Catalog-metaadattár létrehozása

Ez az oldal bemutatja, hogyan hozhat létre Unity Catalog-metaadattárat, és hogyan csatolhatja munkaterületekhez.

Fontos

A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében az ezen a lapon található utasítások szükségtelenek. A Databricks 2023. november 9-én kezdte el automatikusan engedélyezni a Unity Catalog új munkaterületeit, és a fiókok közötti bevezetés fokozatosan haladt. Csak akkor kövesse az ezen a lapon található utasításokat, ha van munkaterülete, és még nem rendelkezik metaadattárval a munkaterület régiójában. Annak megállapításához, hogy egy metaadattár már létezik-e a régióban, tekintse meg a Unity Catalog automatikus engedélyezését.

A metaadattár a Unity Catalog adatainak legfelső szintű tárolója. A Unity Catalog metaadattárai metaadatokat regisztrálnak a biztonságos objektumokról (például táblákról, kötetekről, külső helyekről és megosztásokról), valamint az ezekhez való hozzáférést szabályozó engedélyekről. Minden metaadattár egy háromszintű névteret (catalog.schema.table) tesz elérhetővé, amellyel az adatok rendszerezhetők. Minden olyan régióhoz, ahol a szervezet működik, egy metaadattárat kell tartalmaznia. A Unity Catalog használatához a felhasználóknak olyan munkaterületen kell lenniük, amely a régiójukban található metaadattárhoz van csatolva.

Metaadattár létrehozásához tegye a következőket:

  1. Az Azure-fiókjában szükség esetén hozzon létre egy tárolóhelyet a felügyelt táblák és kötetek metaadattárszintű tárolásához.

    Ha segítségre van szüksége a metaadattárszintű tárolás szükségességének eldöntéséhez, olvassa el a (Nem kötelező) Metaadattárszintű tároló és felügyelt tárhely hierarchia létrehozása című témakört.

  2. Az Azure-fiókjában hozzon létre egy Azure-beli felügyelt identitást vagy szolgáltatásnevet, amely hozzáférést biztosít az adott tárolási helyhez.

  3. Az Azure Databricksben hozza létre a metaadattárat, csatolja a tárolási helyet, és rendeljen munkaterületeket a metaadattárhoz.

Feljegyzés

A cikkben ismertetett megközelítéseken kívül metaadattárat is létrehozhat a Databricks Terraform szolgáltatóval, különösen a databricks_metastore erőforrással. Ha engedélyezni szeretné a Unity Catalog számára a metaadattár elérését, használja a databricks_metastore_data_access. A munkaterületeket metaadattárhoz kapcsolhatja a databricks_metastore_assignment használatával.

Mielőtt elkezdené

Mielőtt hozzákezdene, ismerkedjen meg a Unity Catalog alapfogalmaival, beleértve a metaadattárakat és a felügyelt tárolókat. Lásd a Mi az a Unity katalógus? témakört.

Azt is ellenőriznie kell, hogy megfelel-e az összes beállítási lépésre vonatkozó alábbi követelményeknek:

  • Azure Databricks-fiókadminisztrátornak kell lennie.

    Az első Azure Databricks-fiók rendszergazdájának Microsoft Entra-azonosítójú globális rendszergazdának kell lennie, amikor először jelentkezik be az Azure Databricks-fiókkonzolra. Az első bejelentkezéskor a felhasználó Azure Databricks-fiókadminisztrátor lesz, és már nincs szüksége a Microsoft Entra ID globális rendszergazdai szerepkörre az Azure Databricks-fiók eléréséhez. Az első fiókadminisztrátor kijelölhet felhasználókat a Microsoft Entra ID-bérlőből további fiókadminisztrátori szerepkörre (akik maguk is kijelölhetnek még több fiókadminisztrátort). A további fiókadminisztrátoroknak nincs szükségük meghatározott szerepkörökre a Microsoft Entra-azonosítóban.

  • A metaadattárhoz csatolt munkaterületeknek az Azure Databricks Premium-csomagban kell lenniük.

  • Ha metaadattárszintű gyökértárolót szeretne beállítani, rendelkeznie kell a következők azure-bérlőben való létrehozásához szükséges engedéllyel:

    • Az Azure Data Lake Storage-hoz használandó tárfiók. Lásd: Tárfiók létrehozása az Azure Data Lake Storage-hoz.
    • Egy új erőforrás, amely egy rendszer által hozzárendelt felügyelt identitást tárol. Ehhez a bérlő bármely előfizetésében közreműködőnek vagy erőforráscsoport tulajdonosának kell lennie.

1. lépés (nem kötelező): Tároló létrehozása metaadattárszintű felügyelt tárolóhoz

Ebben a lépésben, amely nem kötelező, létrehoz egy tárfiókot és egy tárolót a felügyelt tábla- és kötetadatok metaadattár szintjén való tárolásához. Annak megállapításához, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozása című témakört.

  1. Hozzon létre egy tárfiókot az Azure Data Lake Storage-hoz.

    Ez a tárfiók a Unity Catalog által felügyelt táblákat és köteteket fogja tartalmazni. Ennek egy Azure Data Lake Storage-fióknak kell lennie ugyanabban a régióban, mint az Azure Databricks-munkaterületek. Lásd: Tárfiók létrehozása az Azure Data Lake Storage-hoz.

  2. Hozzon létre egy tárolót, amely a metaadattár szintjén tárolja a felügyelt táblákat és kötetadatokat.

    Régiónként csak egy metaadattár hozható létre. Ugyanazt a régiót kell használnia a metaadattárhoz és a tárolóhoz.

    Ezt a metaadattárszintű tárolóhelyet felül lehet bírálni a katalógus és a séma szintjén. Lásd: Felügyelt tárolóhely megadása a Unity Catalogban.

    Jegyezze fel a tároló ADLSv2 URI-ját, amely a következő formátumban van:

    abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
    

    Az alábbi lépésekben cserélje le <storage-container> erre az URI-ra.

2. lépés (nem kötelező): Felügyelt identitás létrehozása a felügyelt tárhely eléréséhez

Ebben a lépésben, amely csak az 1. lépés elvégzése után szükséges, létre kell hoznia egy Azure Databricks hozzáférési összekötőt, amely egy felügyelt identitást tartalmaz, és hozzáférést biztosít a tárolóhoz.

Kövesse az Azure által felügyelt identitások használata a Unity Katalógusban a tárterület eléréséhez című témakör utasításait.

Feljegyzés

Használhat azure-beli felügyelt identitást vagy szolgáltatásnevet a metaadattár tárolójának hozzáférését biztosító identitásként. A Databricks határozottan javasolja a felügyelt identitásokat, mivel nem követelik meg a hitelesítő adatok karbantartását vagy a titkos kulcsok elforgatását, és lehetővé teszik, hogy egy storage tűzfallal védett Azure Data Lake Storage-fiókhoz csatlakozzon. Ha szolgáltatásfelelőst szeretne használni, olvassa el Unity Catalog által felügyelt tároló létrehozása szolgáltatásfelelőssel (örökölt).

3. lépés: A metaadattár létrehozása és munkaterület csatolása

Minden Azure Databricks-régióhoz saját Unity Catalog-metaadattár szükséges.

Minden olyan régióhoz létrehoz egy metaadattárat, amelyben a szervezet működik. Ezeket a regionális metaadattárakat tetszőleges számú munkaterülethez csatolhatja az adott régióban. Minden csatolt munkaterület ugyanazt a nézetet jeleníti meg a metaadattárban lévő adatokról, és az adathozzáférés-vezérlés több munkaterületen is kezelhető. Más metaadattárak adataihoz a Delta Sharing használatával férhet hozzá.

Ha metaadattárszintű tárolót szeretne létrehozni, a metaadattár az előző lépésekben létrehozott tárolót és Azure-beli felügyelt identitást fogja használni.

Metaadattár létrehozása:

  1. Ha metaadattárszintű tárolót szeretne létrehozni, győződjön meg arról, hogy rendelkezik a tároló elérési útjával és az Azure Databricks-hozzáférési összekötő erőforrás-azonosítójával, amelyet az előző feladatban hozott létre.

  2. Jelentkezzen be a munkaterületre fiókadminisztrátorként.

  3. Kattintson a felhasználónevére az Azure Databricks-munkaterület felső sávjában, és válassza a Fiók kezelése lehetőséget.

  4. Jelentkezzen be az Azure Databricks-fiókkonzolra.

  5. Kattintson az Adatok ikonra.Katalógus.

  6. Kattintson a Metaadattár létrehozása elemre.

  7. Adja meg a következőket:

    • A metaadattár neve .

    • Régió , ahol a metaadattár üzembe lesz helyezve.

      Ennek ugyanabban a régióban kell lennie, mint az adatok eléréséhez használni kívánt munkaterületeknek. Ha úgy döntött, hogy létrehoz egy tárolót a metaadattárszintű tároláshoz, annak a régiónak is azonosnak kell lennie.

    • (Nem kötelező) ADLS Gen 2 elérési útja: Adja meg a metaadattár gyökértárolójaként használni kívánt tároló elérési útját.

      Az abfss:// előtag automatikusan hozzáadódik.

    • (Nem kötelező) Hozzáférési összekötő azonosítója: Adja meg az Azure Databricks hozzáférési összekötő erőforrás-azonosítóját a következő formátumban:

      /subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
      
  8. Kattintson a Létrehozás.

  9. Amikor a rendszer kéri, válassza ki a metaadattárra hivatkozó munkaterületeket.

    További részletekért lásd : Munkaterület engedélyezése a Unity Cataloghoz.

  10. A metaadattár-rendszergazdai szerepkör áthelyezése egy csoportba.

    A metaadattárat létrehozó felhasználó a tulajdonosa, más néven metaadattár-rendszergazda. A metaadattár rendszergazdája létrehozhat felső szintű objektumokat a metaadattárban, például katalógusokat, és kezelheti a táblákhoz és más objektumokhoz való hozzáférést. A Databricks azt javasolja, hogy rendelje hozzá újra a metaadattár-rendszergazdai szerepkört egy csoporthoz. Lásd: Metaadattár-rendszergazda hozzárendelése.

  11. A felügyelt kötetekre való feltöltések Azure Databricks-felügyeletének engedélyezése.

    Az Azure Databricks több forrásból származó erőforrás-megosztással (CORS) tölti fel az adatokat felügyelt kötetekre a Unity Catalogban.

    1. A tárfiókra való navigálás az Azure Portalon

    2. Válassza Beállítások > Erőforrás-megosztás (CORS)

    3. Győződjön meg arról, hogy a Blob service lap ki van jelölve. Szerkessze a mezőket az alábbiak szerint:

      szakterület Érték
      Engedélyezett források https://*.azuredatabricks.net
      Engedélyezett metódusok PUT
      Engedélyezett fejlécek x-ms-blob-type
      Közzétett fejlécek (hagyja üresen)
      Maximális életkor 1800
    4. Válassza az Mentésgombot.

Következő lépések