Adatbázis-objektumok az Azure Databricksben
Az Azure Databricks két elsődleges biztonságos objektumot használ az adatok tárolásához és eléréséhez.
- Táblázatokkal szabályozhatja a táblázatos adatokhoz való hozzáférést.
- A kötetek szabályozzák a nem táblázatos adatokhoz való hozzáférést.
Ez a cikk azt ismerteti, hogyan kapcsolódnak ezek az adatbázis-objektumok az Azure Databricks katalógusaihoz, sémáihoz, nézeteihez és egyéb adatbázis-objektumaihoz. Ez a cikk azt is ismerteti, hogyan működnek az adatbázis-objektumok az általános platformarchitektúra kontextusában.
Mik azok az adatbázis-objektumok az Azure Databricksben?
Az adatbázis-objektumok olyan entitások, amelyek segítenek az adatok rendszerezésében, elérésében és szabályozásában. Az Azure Databricks háromszintű hierarchiát használ az adatbázis-objektumok rendszerezéséhez:
- Katalógus: A legfelső szintű tároló sémákat tartalmaz. Lásd : Mik azok a katalógusok az Azure Databricksben?.
- Séma vagy adatbázis: Adatobjektumokat tartalmaz. Lásd: Mik azok a sémák az Azure Databricksben?.
- A sémában tárolható adatobjektumok:
- Kötet: a nem táblázatos adatok logikai kötete a felhőobjektum-tárolóban. Lásd: Mik azok a Unity Catalog-kötetek?.
- Táblázat: sorok és oszlopok szerint rendezett adatgyűjtemény. Lásd: Mik azok a táblák és nézetek?.
- Nézet: mentett lekérdezés egy vagy több táblán. Lásd : Mi az a nézet?.
- Függvény: mentett logika, amely skaláris értéket vagy sorkészletet ad vissza. Lásd a felhasználó által definiált függvényeket (UDF-eket) a Unity Catalogban.
- Modell: MLflow-jal csomagolt gépi tanulási modell. Lásd: Modell életciklusának kezelése a Unity Katalógusban.
A katalógusok egy fiókszinten felügyelt metaadattárban vannak regisztrálva. Csak a rendszergazdák használják közvetlenül a metaadattárat. Lásd: Metaadattárak.
Az Azure Databricks további eszközöket biztosít az adatok kezeléséhez, amelyek mindegyike munkaterületszintű hozzáférés-vezérléssel vagy a Unity Catalog, a Databricks adatszabályozási megoldásával szabályozható:
- Munkaterületszintű adategységek, például jegyzetfüzetek, feladatok és lekérdezések.
- A Unity Catalog biztonságos objektumai, például a tár hitelesítő adatai és a Delta Sharing-megosztások, amelyek elsősorban a tárterülethez való hozzáférést vagy a biztonságos megosztást szabályozzák.
További információ: Adatbázis-objektumok és munkaterület biztonságos adategységei , valamint a Unity Catalog biztonságos hitelesítő adatai és infrastruktúrája.
Adatbázis-objektumokhoz való hozzáférés kezelése a Unity Catalog használatával
Az adatbázis-objektumokhoz a hierarchia bármely szintjén hozzáférést adhat és vonhat vissza, beleértve magát a metaadattárat is. Az objektumhoz való hozzáférés implicit módon ugyanazt a hozzáférést biztosítja az objektum összes gyermekéhez, kivéve, ha a hozzáférés visszavonásra kerül.
Tipikus ANSI SQL-parancsokkal hozzáférést adhat és vonhat vissza az objektumokhoz a Unity Catalogban. Az adatobjektum-jogosultságok felhasználói felületalapú felügyeletéhez a Catalog Explorert is használhatja.
Az objektumok Unity Catalogban való biztonságossá tételéről további információt a Unity Katalógus Biztonságos objektumok című témakörében talál.
Alapértelmezett objektumengedélyek a Unity Katalógusban
Attól függően, hogy a munkaterület hogyan lett létrehozva és engedélyezve a Unity Catalogban, előfordulhat, hogy a felhasználók alapértelmezett engedélyekkel rendelkeznek az automatikusan kiépített katalógusokhoz, beleértve a main
katalógust vagy a munkaterület katalógusát (<workspace-name>
). További információ: Alapértelmezett felhasználói jogosultságok.
Ha a munkaterület manuálisan lett engedélyezve a Unity-katalógushoz, a katalógusban main
elnevezett default
alapértelmezett sémát tartalmaz, amely a munkaterület összes felhasználója számára elérhető. Ha a munkaterület automatikusan engedélyezve lett a Unity Cataloghoz, és tartalmaz egy katalógust <workspace-name>
, akkor a katalógus tartalmaz egy sémát default
, amely a munkaterület összes felhasználója számára elérhető.
Adatbázis-objektumok és munkaterület biztonságos adategységei
Az Azure Databricks lehetővé teszi, hogy az adatbázis-objektumok mellett több adatelemzési, elemzési, ml- és AI-objektumot is kezeljen. Ezeket az adategységeket nem regisztrálja a Unity Catalogban. Ehelyett ezeket az eszközöket a munkaterület szintjén kezeli a rendszer, és vezérlőlistákat használ az engedélyek szabályozásához. Ezek az adategységek a következők:
- Jegyzetfüzetek
- Irányítópultok
- Feladatok
- Pipelines
- Munkaterület fájljai
- SQL-lekérdezések
- Kísérletek
A legtöbb adategység olyan logikát tartalmaz, amely az adatbázis-objektumokkal együttműködve adatokat kérdez le, függvényeket használ, modelleket regisztrál vagy egyéb gyakori feladatokat végez. A munkaterület adategységek biztonságossá tételéről további információt a Hozzáférés-vezérlési listák című témakörben talál.
Feljegyzés
A számításhoz való hozzáférést hozzáférés-vezérlési listák szabályozzák. A számítást hozzáférési móddal konfigurálhatja, és további felhőbeli engedélyeket adhat hozzá, amelyek szabályozzák, hogy a felhasználók hogyan férhetnek hozzá az adatokhoz. A Databricks ajánlott eljárásként számítási szabályzatok használatát és a fürtlétrehozási jogosultságok korlátozását javasolja. Lásd: Hozzáférési módok.
A Unity Catalog biztonságos hitelesítő adatai és infrastruktúrája
A Unity Catalog a metaadattár szintjén regisztrált biztonságos objektumok használatával kezeli a felhőbeli objektumok tárolásához, adatmegosztásához és lekérdezési összevonásához való hozzáférést. Az alábbiakban rövid leírást ad ezeknek a nem adatbiztosítható objektumoknak.
A Unity Catalog csatlakoztatása a felhőbeli objektumtárolóhoz
Új felügyelt tárolóhely létrehozásához vagy külső táblák vagy külső kötetek regisztrálásához meg kell határoznia a tárolási hitelesítő adatokat és a külső helyeket. Ezek a biztonságos objektumok a Unity Katalógusban vannak regisztrálva:
- Tárolási hitelesítő adatok: Hosszú távú felhőalapú hitelesítő adatok, amelyek hozzáférést biztosítanak a felhőbeli tárolókhoz.
- Külső hely: Hivatkozás egy felhőalapú objektum tárolási útvonalára, amely a párosított tároló hitelesítő adataival érhető el.
Lásd: Csatlakozás a felhőobjektum-tárolóhoz a Unity Catalog használatával.
Delta-megosztás
Az Azure Databricks a következő Delta Sharing biztonságos objektumokat regisztrálja a Unity Catalogban:
- Megosztás: Táblák, kötetek és egyéb adategységek írásvédett gyűjteménye.
- Szolgáltató: Az adatokat megosztó szervezet vagy entitás. A Databricks-to-Databricks megosztómodellben a szolgáltató a címzett Unity Catalog-metaadattárában van regisztrálva a metaadattár azonosítója által azonosított egyedi entitásként.
- Címzett: Az az entitás, amely megosztásokat fogad egy szolgáltatótól. A Databricks-to-Databricks megosztómodellben a címzettet egyedi metaadattár-azonosítója azonosítja a szolgáltatónak.
Lásd : Mi az a deltamegosztás?.
Lakehouse Federation
A Lakehouse Federation lehetővé teszi, hogy olyan idegen katalógusokat hozzon létre, amely írásvédett hozzáférést biztosít más rendszerekben, például a PostgreSQL-ben, a MySQL-ben és a Snowflake-ben található adatokhoz. Külföldi katalógusok létrehozásához meg kell határoznia a külső rendszerrel való kapcsolatot.
Kapcsolat: A Unity-katalógus biztonságos objektuma egy külső adatbázisrendszerhez való hozzáférés elérési útját és hitelesítő adatait adja meg Egy Lakehouse-összevonási forgatókönyvben.
Lásd : Mi az a Lakehouse Federation?.
Felügyelt kötetek és táblák felügyelt tárolási helyei
Amikor táblákat és köteteket hoz létre az Azure Databricksben, lehetősége van felügyelt vagy külsővé tenni őket. A Unity Catalog kezeli a külső táblákhoz és kötetekhez való hozzáférést az Azure Databricksből, de nem szabályozza a mögöttes fájlokat, és nem kezeli teljes mértékben ezeknek a fájloknak a tárolási helyét. A felügyelt táblákat és köteteket viszont teljes mértékben a Unity Catalog felügyeli, és a rendszer egy felügyelt tárolóhelyen tárolja őket, amely a tartalmazó sémához van társítva. Lásd: Felügyelt tárhely megadása a Unity Katalógusban.
A Databricks felügyelt köteteket és felügyelt táblákat javasol a legtöbb számítási feladathoz, mivel leegyszerűsítik a konfigurációt, az optimalizálást és a szabályozást.
Unity Catalog vs. legacy Hive metaadattár
A Databricks a Unity Catalog használatát javasolja az összes adatbázis-objektum regisztrálásához és szabályozásához, de a Hive metaadattár régi támogatását is biztosítja sémák, táblák, nézetek és függvények kezeléséhez.
Ha a Hive metaadattárban regisztrált adatbázis-objektumokkal kommunikál, tekintse meg az örökölt Hive metaadattár adatbázis-objektumait.