Unity Catalog-metaadattár létrehozása
Ez a cikk bemutatja, hogyan hozhat létre unitykatalógus-metaadattárat, és hogyan csatolhatja munkaterületekhez.
Fontos
A Unity Cataloghoz automatikusan engedélyezett munkaterületek esetében a cikkben szereplő utasítások szükségtelenek. A Databricks 2023. november 9-én kezdte el automatikusan engedélyezni a Unity Catalog új munkaterületeit, és a fiókok közötti bevezetés fokozatosan haladt. Csak akkor kövesse a cikkben leírt utasításokat, ha van munkaterülete, és még nem rendelkezik metaadattárval a munkaterület régiójában. Annak megállapításához, hogy egy metaadattár már létezik-e a régióban, tekintse meg a Unity Catalog automatikus engedélyezését.
A metaadattár a Unity Catalog adatainak legfelső szintű tárolója. A Unity Catalog metaadattárai metaadatokat regisztrálnak a biztonságos objektumokról (például táblákról, kötetekről, külső helyekről és megosztásokról), valamint az ezekhez való hozzáférést szabályozó engedélyekről. Minden metaadattár egy háromszintű névteret (catalog
.schema
.table
) tesz elérhetővé, amellyel az adatok rendszerezhetők. Minden olyan régióhoz, ahol a szervezet működik, egy metaadattárat kell tartalmaznia. A Unity Catalog használatához a felhasználóknak olyan munkaterületen kell lenniük, amely a régiójukban található metaadattárhoz van csatolva.
Metaadattár létrehozásához tegye a következőket:
Az Azure-fiókjában szükség esetén hozzon létre egy tárolóhelyet a felügyelt táblák és kötetek metaadattárszintű tárolásához.
Ha szeretné eldönteni, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozása és az adatok fizikailag elválasztva a tárolóban című témakört.
Az Azure-fiókjában hozzon létre egy Azure-beli felügyelt identitást vagy szolgáltatásnevet, amely hozzáférést biztosít az adott tárolási helyhez.
Az Azure Databricksben hozza létre a metaadattárat, csatolja a tárolási helyet, és rendeljen munkaterületeket a metaadattárhoz.
Feljegyzés
A cikkben ismertetett megközelítéseken kívül metaadattárat is létrehozhat a Databricks Terraform szolgáltatóval, különösen a databricks_metastore erőforrással. Ha engedélyezni szeretné a Unity Catalog számára a metaadattár elérését, használja a databricks_metastore_data_access. A munkaterületek metaadattárhoz való csatolásához használja a databricks_metastore_assignment.
Mielőtt elkezdené
Mielőtt hozzákezdene, ismerkedjen meg a Unity Catalog alapfogalmaival, beleértve a metaadattárakat és a felügyelt tárolókat. Lásd a Mi az a Unity katalógus? témakört.
Azt is ellenőriznie kell, hogy megfelel-e az összes beállítási lépésre vonatkozó alábbi követelményeknek:
Azure Databricks-fiókadminisztrátornak kell lennie.
Az első Azure Databricks-fiók rendszergazdájának Microsoft Entra-azonosítójú globális rendszergazdának kell lennie, amikor először jelentkezik be az Azure Databricks-fiókkonzolra. Az első bejelentkezéskor a felhasználó Azure Databricks-fiókadminisztrátor lesz, és már nincs szüksége a Microsoft Entra ID globális rendszergazdai szerepkörre az Azure Databricks-fiók eléréséhez. Az első fiókadminisztrátor további fiókadminisztrátorként további fiókadminisztrátorként rendelhet felhasználókat a Microsoft Entra ID-bérlőhöz (akik maguk is hozzárendelhetnek további fiókadminisztrátorokat). A további fiókadminisztrátoroknak nincs szükségük meghatározott szerepkörökre a Microsoft Entra-azonosítóban.
A metaadattárhoz csatolt munkaterületeknek az Azure Databricks Premium-csomagban kell lenniük.
Ha metaadattárszintű gyökértárolót szeretne beállítani, rendelkeznie kell a következők azure-bérlőben való létrehozásához szükséges engedéllyel:
- Az Azure Data Lake Storage Gen2-vel használható tárfiók. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.
- Egy új erőforrás, amely egy rendszer által hozzárendelt felügyelt identitást tárol. Ehhez a bérlő bármely előfizetésében közreműködőnek vagy erőforráscsoport tulajdonosának kell lennie.
1. lépés (nem kötelező): Tároló létrehozása metaadattárszintű felügyelt tárolóhoz
Ebben a lépésben, amely nem kötelező, létrehoz egy tárfiókot és egy tárolót a felügyelt tábla- és kötetadatok metaadattár szintjén való tárolásához. Annak megállapításához, hogy metaadattárszintű tárolóra van-e szüksége, olvassa el a (Nem kötelező) Metaadattárszintű tároló létrehozása című témakört.
Hozzon létre egy tárfiókot az Azure Data Lake Storage Gen2-hez.
Ez a tárfiók a Unity Catalog által felügyelt táblákat és köteteket fogja tartalmazni. Ennek egy Azure Data Lake Storage Gen2-fióknak kell lennie ugyanabban a régióban, mint az Azure Databricks-munkaterületek. Lásd: Tárfiók létrehozása az Azure Data Lake Storage Gen2-vel való használathoz.
Hozzon létre egy tárolót, amely a metaadattár szintjén tárolja a felügyelt táblákat és kötetadatokat.
Régiónként csak egy metaadattár hozható létre. Ugyanazt a régiót kell használnia a metaadattárhoz és a tárolóhoz.
Ezt a metaadattárszintű tárolóhelyet felül lehet bírálni a katalógus és a séma szintjén. Lásd: Felügyelt tárhely megadása a Unity Katalógusban.
Jegyezze fel a tároló ADLSv2 URI-ját, amely a következő formátumban van:
abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
Az alábbi lépésekben cserélje le
<storage-container>
ezt az URI-t.
2. lépés (nem kötelező): Felügyelt identitás létrehozása a felügyelt tárhely eléréséhez
Ebben a lépésben, amely csak az 1. lépés elvégzése után szükséges, létre kell hoznia egy Azure Databricks hozzáférési összekötőt, amely egy felügyelt identitást tartalmaz, és hozzáférést biztosít a tárolóhoz.
Kövesse az Azure által felügyelt identitások használata a Unity Katalógusban a tárterület eléréséhez című témakör utasításait.
Feljegyzés
Használhat azure-beli felügyelt identitást vagy szolgáltatásnevet a metaadattár tárolójának hozzáférését biztosító identitásként. A Databricks határozottan javasolja a felügyelt identitásokat, mivel nem követelik meg a hitelesítő adatok karbantartását vagy a titkos kulcsok elforgatását, és lehetővé teszik, hogy egy storage tűzfallal védett Azure Data Lake Storage Gen2-fiókhoz csatlakozzon. Ha szolgáltatásnevet szeretne használni, olvassa el a Unity Catalog által felügyelt tároló létrehozása szolgáltatásnévvel (örökölt) című témakört.
3. lépés: A metaadattár létrehozása és munkaterület csatolása
Minden Azure Databricks-régióhoz saját Unity Catalog-metaadattár szükséges.
Minden olyan régióhoz létrehoz egy metaadattárat, amelyben a szervezet működik. Ezeket a regionális metaadattárakat tetszőleges számú munkaterülethez csatolhatja az adott régióban. Minden csatolt munkaterület ugyanazt a nézetet jeleníti meg a metaadattárban lévő adatokról, és az adathozzáférés-vezérlés több munkaterületen is kezelhető. Más metaadattárak adataihoz a Delta Sharing használatával férhet hozzá.
Ha metaadattárszintű tárolót szeretne létrehozni, a metaadattár az előző lépésekben létrehozott tárolót és Azure-beli felügyelt identitást fogja használni.
Metaadattár létrehozása:
Ha metaadattárszintű tárolót szeretne létrehozni, győződjön meg arról, hogy rendelkezik a tároló elérési útjával és az Azure Databricks-hozzáférési összekötő erőforrás-azonosítójával, amelyet az előző feladatban hozott létre.
Jelentkezzen be a munkaterületre fiókadminisztrátorként.
Kattintson a felhasználónevére az Azure Databricks-munkaterület felső sávjában, és válassza a Fiók kezelése lehetőséget.
Jelentkezzen be az Azure Databricks-fiókkonzolra.
Kattintson a Katalógus gombra .
Kattintson a Metaadattár létrehozása elemre.
Adja meg a következőket:
A metaadattár neve .
Régió , ahol a metaadattár üzembe lesz helyezve.
Ennek ugyanabban a régióban kell lennie, mint az adatok eléréséhez használni kívánt munkaterületeknek. Ha úgy döntött, hogy létrehoz egy tárolót a metaadattárszintű tároláshoz, annak a régiónak is azonosnak kell lennie.
(Nem kötelező) ADLS Gen 2 elérési útja: Adja meg a metaadattár gyökértárolójaként használni kívánt tároló elérési útját.
A
abfss://
rendszer automatikusan hozzáadja az előtagot.(Nem kötelező) Hozzáférési összekötő azonosítója: Adja meg az Azure Databricks hozzáférési összekötő erőforrás-azonosítóját a következő formátumban:
/subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
Kattintson a Létrehozás gombra.
Amikor a rendszer kéri, válassza ki a metaadattárra hivatkozó munkaterületeket.
További részletekért lásd : Munkaterület engedélyezése a Unity Cataloghoz.
A metaadattár-rendszergazdai szerepkör áthelyezése egy csoportba.
A metaadattárat létrehozó felhasználó a tulajdonosa, más néven metaadattár-rendszergazda. A metaadattár rendszergazdája létrehozhat felső szintű objektumokat a metaadattárban, például katalógusokat, és kezelheti a táblákhoz és más objektumokhoz való hozzáférést. A Databricks azt javasolja, hogy rendelje hozzá újra a metaadattár-rendszergazdai szerepkört egy csoporthoz. Lásd: Metaadattár-rendszergazda hozzárendelése.
A felügyelt kötetekre való feltöltések Azure Databricks-felügyeletének engedélyezése.
Az Azure Databricks több forrásból származó erőforrás-megosztással (CORS) tölti fel az adatokat felügyelt kötetekre a Unity Catalogban. Lásd: Unity Catalog storage-fiók konfigurálása CORS-hoz.