Megosztás a következőn keresztül:


Csatlakozás a felhőbeli objektumtárolóhoz a Unity Catalog használatával

Ez a cikk áttekintést nyújt azokról a felhőbeli tárolókapcsolat-konfigurációkról, amelyek szükségesek az adatok Unity Catalog használatával való használatához.

A Databricks azt javasolja, hogy a Unity Catalog használatával kezelje a felhőobjektum-tárolóban tárolt összes adathoz való hozzáférést. A Unity Catalog eszközkészletet biztosít a felhőobjektum-tároló biztonságos kapcsolatainak konfigurálásához. Ezek a kapcsolatok hozzáférést biztosítanak a következő műveletek végrehajtásához:

  • Nyers adatok betöltése egy tóházba.
  • Felügyelt táblák létrehozása és olvasása biztonságos felhőbeli tárolóban.
  • Táblázatos adatokat tartalmazó külső táblák regisztrálása vagy létrehozása.
  • Strukturálatlan adatok olvasása és írása.

Figyelmeztetés

Ne adjon a végfelhasználóknak társzintű hozzáférést a Unity Catalog által felügyelt táblákhoz vagy kötetekhez. Ez veszélyezteti az adatbiztonságot és a szabályozást.

Ha a felhasználók közvetlen társzintű hozzáférést biztosítanak a külső tárolóhoz az Azure Data Lake Storage Gen2-ben, nem tartják be a Unity Catalog által megadott engedélyeket vagy auditálásokat. A közvetlen hozzáférés megkerüli a Unity Catalog naplózási, leágaztatási és egyéb biztonsági és monitorozási funkcióit, beleértve a hozzáférés-vezérlést és az engedélyeket. Ön felel az Azure Data Lake Storage Gen2-en keresztüli közvetlen tárhozzáférés kezeléséért, valamint annak biztosításáért, hogy a felhasználók rendelkezzenek a Fabricen keresztül megadott megfelelő engedélyekkel.

Kerülje azokat a forgatókönyveket, amelyek közvetlen tárolási szintű írási hozzáférést biztosítanak a Databricks által felügyelt táblákat tároló gyűjtőkhöz. A Unity Catalog által eredetileg felügyelt tárolón keresztüli objektumok módosítása, törlése vagy fejlesztése adatsérülést okozhat.

Feljegyzés

Ha a munkaterület 2023. november 9. előtt lett létrehozva, lehetséges, hogy a unitykatalógus nem engedélyezi. A fiókadminisztrátornak engedélyeznie kell a Unity Katalógust a munkaterületen. Lásd: Munkaterület engedélyezése a Unity Cataloghoz.

Hogyan csatlakoztatja a Unity Catalog az objektumtárolást az Azure Databrickshez?

Az Azure Databricks az Azure Data Lake Storage Gen2-tárolókat és a Cloudflare R2-gyűjtőket is támogatja felhőalapú tárolóhelyként a Unity Catalogban regisztrált adatok és AI-eszközök számára. Az R2 elsősorban olyan használati esetekre szolgál, amelyekben el szeretné kerülni az adatforgalom díjait, például a felhők és régiók közötti deltamegosztást. További információ: Cloudflare R2-replikák használata vagy tároló áttelepítése R2-re.

A táblákat és köteteket tartalmazó mögöttes felhőalapú tárolóhoz való hozzáférés kezeléséhez a Unity Catalog a következő objektumtípusokat használja:

  • A tárolási hitelesítő adatok egy hitelesítési és engedélyezési mechanizmust jelentenek a felhőbérltetőn tárolt adatok elérésére az Azure Data Lake Storage Gen2-tárolókhoz tartozó Azure-beli felügyelt identitással vagy szolgáltatásnévvel, illetve a Cloudflare R2-tárolók R2 API-jogkivonatával. Minden tárolási hitelesítő adatra a Unity Catalog hozzáférés-vezérlési szabályzatai vonatkoznak, amelyek szabályozzák, hogy mely felhasználók és csoportok férhetnek hozzá a hitelesítő adatokhoz. Ha egy felhasználó nem fér hozzá a Tárolási hitelesítő adatokhoz a Unity Katalógusban, a kérés meghiúsul, és a Unity Catalog nem kísérli meg a hitelesítést a felhőbeli bérlőn a felhasználó nevében. A tár hitelesítő adatainak létrehozására csak olyan felhasználóknak lehet engedélyt adni, akiknek külső helyeket kell meghatározniuk. Lásd: Tároló hitelesítő adatainak létrehozása az Azure Data Lake Storage Gen2-hez való csatlakozáshoz, valamint egy tároló hitelesítő adatainak létrehozása a Cloudflare R2-hez való csatlakozáshoz.

  • A külső hely egy olyan objektum, amely egyesíti a felhőbeli tároló elérési útját egy tároló hitelesítő adataival, amely engedélyezi a felhőbeli tárolási elérési úthoz való hozzáférést. Minden tárolóhelyre a Unity Catalog hozzáférés-vezérlési szabályzatai vonatkoznak, amelyek szabályozzák, hogy mely felhasználók és csoportok férhetnek hozzá a hitelesítő adatokhoz. Ha egy felhasználó nem fér hozzá a Unity Katalógusban található tárolóhelyhez, a kérés meghiúsul, és a Unity Catalog nem kísérli meg a hitelesítést a felhőbeli bérlőn a felhasználó nevében. A külső helyek létrehozására és használatára csak azoknak a felhasználóknak adható engedély, akiknek külső táblákat, külső köteteket vagy felügyelt tárolóhelyeket kell létrehozniuk. Lásd: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.

    A külső helyeket külső adategységekhez, például külső táblákhoz és külső kötetekhez, valamint felügyelt adategységekhez, például felügyelt táblákhoz és felügyelt kötetekhez egyaránt használják. További információ a különbségről: Mik azok a táblák és nézetek? és mik azok a Unity Catalog-kötetek?.

    Ha egy külső helyet használ a felügyelt táblák és a felügyelt kötetek tárolására, az úgynevezett felügyelt tárolóhely. A felügyelt tárolóhelyek a metaadattár, a katalógus vagy a séma szintjén is létezhetnek. A Databricks a felügyelt tárolóhelyek katalógusszintű konfigurálását javasolja. Ha részletesebb elkülönítésre van szüksége, a séma szintjén megadhatja a felügyelt tárolóhelyeket. A Unity Cataloghoz engedélyezett munkaterületek alapértelmezés szerint automatikusan nem rendelkeznek metaadattárszintű tárterülettel, de megadhat egy felügyelt tárolóhelyet a metaadattár szintjén, hogy az alapértelmezett helyet adja meg, ha nincs megadva katalógusszintű tároló. A Unity Cataloghoz engedélyezett munkaterületek alapértelmezés szerint metaadattárszintű felügyelt tárolóhelyet kapnak. Tekintse meg a Felügyelt tárhely megadása a Unity Catalogban és a Unity Catalog ajánlott eljárásait.

A kötetek olyan biztonságos objektumok, amelyeket a legtöbb Azure Databricks-felhasználónak közvetlenül kell használnia a nem táblázatos adatokkal való közvetlen interakcióhoz a felhőobjektum-tárolóban. Lásd: Mik azok a Unity Catalog-kötetek?.

Feljegyzés

Míg a Unity Catalog támogatja a külső táblákhoz és külső kötetekhez való elérési utakon alapuló hozzáférést a felhőalapú tárolási URI-k használatával, a Databricks azt javasolja, hogy a felhasználók olvassák és írják meg az összes Unity Catalog-táblát táblanevek használatával, és férjenek hozzá a kötetekben lévő adatokhoz elérési utak használatával /Volumes .

Ajánlott eljárások a felhőbeli tároláshoz a Unity Catalog használatával

Az Azure Databricks megköveteli, hogy az Azure Data Lake Storage Gen2-t használja Azure Storage-szolgáltatásként az Azure Databricksben a Unity Catalog szabályozásával feldolgozott adatokhoz. Az Azure Data Lake Storage Gen2 lehetővé teszi a tárolási és számítási költségek elkülönítését, valamint a Unity Catalog által biztosított részletes hozzáférés-vezérlés előnyeit. Ha az adatok a OneLake-ben (a Microsoft Fabric data lake-ben) vannak tárolva, és a Databricks dolgozza fel (a Unity Catalog megkerülésével), a csomagban tárolt tárolási és számítási költségekkel kell számolnia. Ez az olvasások esetében körülbelül 3x magasabb, az adatok tárolásához, olvasásához és írásához használt Azure Data Lake Storage Gen2-hez képest pedig 1,6-kal magasabb költségekhez vezethet. Az Azure Blob Storage nem kompatibilis a Unity Catalog szolgáltatással is.

Szolgáltatás Azure Blob Storage Azure Data Lake Storage Gen2 OneLake
A Unity Catalog támogatja X X
További hálókapacitás-vásárlást igényel X X
Támogatott műveletek külső motorokról -Olvas
-Ír
-Olvas
-Ír
– Olvasás (Az olvasási költségek 3-szor magasabbak az Azure Data Lake Storage Gen2-ből való adatolvasáshoz képest).
– Az írások nem támogatottak.

További részletekért tekintse meg a OneLake dokumentációját.
Telepítés Regionális Regionális Globális
Hitelesítés Entra ID közös hozzáférésű jogosultságkód Entra ID közös hozzáférésű jogosultságkód Entra-azonosító
Storage-események X
Helyreállítható törlés
Hozzáférés-vezérlés RBAC RBAC, ABAC, ACL RBAC (csak tábla/mappa, a parancsikon ACL-ek nem támogatottak)
Titkosítási kulcsok X
Hozzáférési szintek Online archívum Gyakori, ritka elérésű, hideg, archívum Csak gyakori elérésű

Következő lépések

Ha még csak most kezdi el rendszergazdaként a Unity Catalog használatát, olvassa el a Unity Catalog beállítása és kezelése című témakört.

Ha Ön új felhasználó, és a munkaterülete már engedélyezve van a Unity Cataloghoz, tekintse meg az oktatóanyagot: Az első tábla létrehozása és jogosultságok megadása.