Csatlakozás a felhőbeli objektumtárolóhoz a Unity Catalog használatával
Ez a cikk áttekintést nyújt azokról a felhőbeli tárolókapcsolat-konfigurációkról, amelyek szükségesek az adatok Unity Catalog használatával való használatához.
A Databricks azt javasolja, hogy a Unity Catalog használatával kezelje a felhőobjektum-tárolóban tárolt összes adathoz való hozzáférést. A Unity Catalog eszközkészletet biztosít a felhőobjektum-tároló biztonságos kapcsolatainak konfigurálásához. Ezek a kapcsolatok hozzáférést biztosítanak a következő műveletek végrehajtásához:
- Nyers adatok betöltése egy tóházba.
- Felügyelt táblák létrehozása és olvasása biztonságos felhőbeli tárolóban.
- Táblázatos adatokat tartalmazó külső táblák regisztrálása vagy létrehozása.
- Strukturálatlan adatok olvasása és írása.
Figyelmeztetés
Ne adjon a végfelhasználóknak társzintű hozzáférést a Unity Catalog által felügyelt táblákhoz vagy kötetekhez. Ez veszélyezteti az adatbiztonságot és a szabályozást.
Ha a felhasználók közvetlen társzintű hozzáférést biztosítanak a külső tárolóhoz az Azure Data Lake Storage Gen2-ben, nem tartják be a Unity Catalog által megadott engedélyeket vagy auditálásokat. A közvetlen hozzáférés megkerüli a Unity Catalog naplózási, leágaztatási és egyéb biztonsági és monitorozási funkcióit, beleértve a hozzáférés-vezérlést és az engedélyeket. Ön felel az Azure Data Lake Storage Gen2-en keresztüli közvetlen tárhozzáférés kezeléséért, valamint annak biztosításáért, hogy a felhasználók rendelkezzenek a Fabricen keresztül megadott megfelelő engedélyekkel.
Kerülje azokat a forgatókönyveket, amelyek közvetlen tárolási szintű írási hozzáférést biztosítanak a Databricks által felügyelt táblákat tároló gyűjtőkhöz. A Unity Catalog által eredetileg felügyelt tárolón keresztüli objektumok módosítása, törlése vagy fejlesztése adatsérülést okozhat.
Feljegyzés
Ha a munkaterület 2023. november 9. előtt lett létrehozva, lehetséges, hogy a unitykatalógus nem engedélyezi. A fiókadminisztrátornak engedélyeznie kell a Unity Katalógust a munkaterületen. Lásd: Munkaterület engedélyezése a Unity Cataloghoz.
Hogyan csatlakoztatja a Unity Catalog az objektumtárolást az Azure Databrickshez?
Az Azure Databricks az Azure Data Lake Storage Gen2-tárolókat és a Cloudflare R2-gyűjtőket is támogatja felhőalapú tárolóhelyként a Unity Catalogban regisztrált adatok és AI-eszközök számára. Az R2 elsősorban olyan használati esetekre szolgál, amelyekben el szeretné kerülni az adatforgalom díjait, például a felhők és régiók közötti deltamegosztást. További információ: Cloudflare R2-replikák használata vagy tároló áttelepítése R2-re.
A táblákat és köteteket tartalmazó mögöttes felhőalapú tárolóhoz való hozzáférés kezeléséhez a Unity Catalog a következő objektumtípusokat használja:
A tárolási hitelesítő adatok egy hitelesítési és engedélyezési mechanizmust jelentenek a felhőbérltetőn tárolt adatok elérésére az Azure Data Lake Storage Gen2-tárolókhoz tartozó Azure-beli felügyelt identitással vagy szolgáltatásnévvel, illetve a Cloudflare R2-tárolók R2 API-jogkivonatával. Minden tárolási hitelesítő adatra a Unity Catalog hozzáférés-vezérlési szabályzatai vonatkoznak, amelyek szabályozzák, hogy mely felhasználók és csoportok férhetnek hozzá a hitelesítő adatokhoz. Ha egy felhasználó nem fér hozzá a Tárolási hitelesítő adatokhoz a Unity Katalógusban, a kérés meghiúsul, és a Unity Catalog nem kísérli meg a hitelesítést a felhőbeli bérlőn a felhasználó nevében. A tár hitelesítő adatainak létrehozására csak olyan felhasználóknak lehet engedélyt adni, akiknek külső helyeket kell meghatározniuk. Lásd: Tároló hitelesítő adatainak létrehozása az Azure Data Lake Storage Gen2-hez való csatlakozáshoz, valamint egy tároló hitelesítő adatainak létrehozása a Cloudflare R2-hez való csatlakozáshoz.
A külső hely egy olyan objektum, amely egyesíti a felhőbeli tároló elérési útját egy tároló hitelesítő adataival, amely engedélyezi a felhőbeli tárolási elérési úthoz való hozzáférést. Minden tárolóhelyre a Unity Catalog hozzáférés-vezérlési szabályzatai vonatkoznak, amelyek szabályozzák, hogy mely felhasználók és csoportok férhetnek hozzá a hitelesítő adatokhoz. Ha egy felhasználó nem fér hozzá a Unity Katalógusban található tárolóhelyhez, a kérés meghiúsul, és a Unity Catalog nem kísérli meg a hitelesítést a felhőbeli bérlőn a felhasználó nevében. A külső helyek létrehozására és használatára csak azoknak a felhasználóknak adható engedély, akiknek külső táblákat, külső köteteket vagy felügyelt tárolóhelyeket kell létrehozniuk. Lásd: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.
A külső helyeket külső adategységekhez, például külső táblákhoz és külső kötetekhez, valamint felügyelt adategységekhez, például felügyelt táblákhoz és felügyelt kötetekhez egyaránt használják. További információ a különbségről: Mik azok a táblák és nézetek? és mik azok a Unity Catalog-kötetek?.
Ha egy külső helyet használ a felügyelt táblák és a felügyelt kötetek tárolására, az úgynevezett felügyelt tárolóhely. A felügyelt tárolóhelyek a metaadattár, a katalógus vagy a séma szintjén is létezhetnek. A Databricks a felügyelt tárolóhelyek katalógusszintű konfigurálását javasolja. Ha részletesebb elkülönítésre van szüksége, a séma szintjén megadhatja a felügyelt tárolóhelyeket. A Unity Cataloghoz engedélyezett munkaterületek alapértelmezés szerint automatikusan nem rendelkeznek metaadattárszintű tárterülettel, de megadhat egy felügyelt tárolóhelyet a metaadattár szintjén, hogy az alapértelmezett helyet adja meg, ha nincs megadva katalógusszintű tároló. A Unity Cataloghoz engedélyezett munkaterületek alapértelmezés szerint metaadattárszintű felügyelt tárolóhelyet kapnak. Tekintse meg a Felügyelt tárhely megadása a Unity Catalogban és a Unity Catalog ajánlott eljárásait.
A kötetek olyan biztonságos objektumok, amelyeket a legtöbb Azure Databricks-felhasználónak közvetlenül kell használnia a nem táblázatos adatokkal való közvetlen interakcióhoz a felhőobjektum-tárolóban. Lásd: Mik azok a Unity Catalog-kötetek?.
Feljegyzés
Míg a Unity Catalog támogatja a külső táblákhoz és külső kötetekhez való elérési utakon alapuló hozzáférést a felhőalapú tárolási URI-k használatával, a Databricks azt javasolja, hogy a felhasználók olvassák és írják meg az összes Unity Catalog-táblát táblanevek használatával, és férjenek hozzá a kötetekben lévő adatokhoz elérési utak használatával /Volumes
.
Ajánlott eljárások a felhőbeli tároláshoz a Unity Catalog használatával
Az Azure Databricks megköveteli, hogy az Azure Data Lake Storage Gen2-t használja Azure Storage-szolgáltatásként az Azure Databricksben a Unity Catalog szabályozásával feldolgozott adatokhoz. Az Azure Data Lake Storage Gen2 lehetővé teszi a tárolási és számítási költségek elkülönítését, valamint a Unity Catalog által biztosított részletes hozzáférés-vezérlés előnyeit. Ha az adatok a OneLake-ben (a Microsoft Fabric data lake-ben) vannak tárolva, és a Databricks dolgozza fel (a Unity Catalog megkerülésével), a csomagban tárolt tárolási és számítási költségekkel kell számolnia. Ez az olvasások esetében körülbelül 3x magasabb, az adatok tárolásához, olvasásához és írásához használt Azure Data Lake Storage Gen2-hez képest pedig 1,6-kal magasabb költségekhez vezethet. Az Azure Blob Storage nem kompatibilis a Unity Catalog szolgáltatással is.
Szolgáltatás | Azure Blob Storage | Azure Data Lake Storage Gen2 | OneLake |
---|---|---|---|
A Unity Catalog támogatja | X | ✓ | X |
További hálókapacitás-vásárlást igényel | X | X | ✓ |
Támogatott műveletek külső motorokról | -Olvas -Ír |
-Olvas -Ír |
– Olvasás (Az olvasási költségek 3-szor magasabbak az Azure Data Lake Storage Gen2-ből való adatolvasáshoz képest). – Az írások nem támogatottak. További részletekért tekintse meg a OneLake dokumentációját. |
Telepítés | Regionális | Regionális | Globális |
Hitelesítés | Entra ID közös hozzáférésű jogosultságkód | Entra ID közös hozzáférésű jogosultságkód | Entra-azonosító |
Storage-események | ✓ | ✓ | X |
Helyreállítható törlés | ✓ | ✓ | ✓ |
Hozzáférés-vezérlés | RBAC | RBAC, ABAC, ACL | RBAC (csak tábla/mappa, a parancsikon ACL-ek nem támogatottak) |
Titkosítási kulcsok | ✓ | ✓ | X |
Hozzáférési szintek | Online archívum | Gyakori, ritka elérésű, hideg, archívum | Csak gyakori elérésű |
Következő lépések
Ha még csak most kezdi el rendszergazdaként a Unity Catalog használatát, olvassa el a Unity Catalog beállítása és kezelése című témakört.
Ha Ön új felhasználó, és a munkaterülete már engedélyezve van a Unity Cataloghoz, tekintse meg az oktatóanyagot: Az első tábla létrehozása és jogosultságok megadása.