Mi az a Unity katalógus?
Ez a cikk bemutatja a Unity Catalogot, az Azure Databricksen tárolt adatok és AI-eszközök egységes szabályozási megoldását.
Feljegyzés
A Unity Catalog nyílt forráskódú implementációként is elérhető. Tekintse meg a bejelentési blogot és a nyilvános Unity Catalog GitHub-adattárat.
A Unity-katalógus áttekintése
A Unity Catalog központosított hozzáférés-vezérlési, naplózási, adatfeltárási és adatfelderítési képességeket biztosít az Azure Databricks-munkaterületeken.
A Unity Catalog főbb funkciói a következők:
- Definiáljon egyszer, biztonságosan mindenhol: A Unity Catalog egyetlen helyet kínál az összes munkaterületre érvényes adathozzáférési szabályzatok felügyeletéhez.
- Szabványoknak megfelelő biztonsági modell: A Unity Catalog biztonsági modellje a szabványos ANSI SQL-en alapul, és lehetővé teszi a rendszergazdák számára, hogy a meglévő data lake-ben ismerős szintaxissal, a katalógusok, sémák (más néven adatbázisok), táblák és nézetek szintjén adjon engedélyeket.
- Beépített naplózás és leválasztás: A Unity Catalog automatikusan rögzíti az adatokhoz való hozzáférést rögzítő felhasználói szintű naplózási naplókat. A Unity Catalog emellett olyan életútadatokat is rögzít, amelyek nyomon követik az adategységek létrehozását és használatát minden nyelven.
- Adatfelderítés: A Unity-katalógus lehetővé teszi az adategységek címkézését és dokumentálást, valamint keresési felületet biztosít az adatfelhasználók számára az adatok megtalálásához.
- Rendszertáblák (nyilvános előzetes verzió): A Unity Catalog segítségével egyszerűen elérheti és lekérdezheti a fiók működési adatait, beleértve az auditnaplókat, a számlázható használatot és a leválasztást.
A Unity Catalog objektummodellje
A Unity Catalogban az összes metaadat egy metaadattárban van regisztrálva. A Unity Catalog-metaadattárak adatbázis-objektumainak hierarchiája három szintre van osztva, és háromszintű névtérként (catalog.schema.table-etc
) jelenik meg, amikor táblákra, nézetekre, kötetekre, modellekre és függvényekre hivatkozik.
Metaadattárak
A metaadattár a Unity Catalog metaadatainak legfelső szintű tárolója. Regisztrálja az adatok és az AI-eszközök metaadatait, valamint az azokhoz való hozzáférést szabályozó engedélyeket. Ahhoz, hogy egy munkaterület a Unity Catalogot használja, egy Unity Catalog-metaadattárat kell csatolnia.
Minden olyan régióhoz, ahol munkaterületek vannak, egy metaadattárat kell rendelkeznie. Hogyan kapcsolódik egy munkaterület egy metaadattárhoz? Lásd Hogyan Unity-katalógus beállítását a szervezetem számára?.
Objektumhierarchia a metaadattárban
A Unity Catalog metaadattárában a háromszintű adatbázis-objektumhierarchia sémákat tartalmazó katalógusokból áll, amelyek viszont adatokat és AI-objektumokat, például táblákat és modelleket tartalmaznak.
Első szint:
- A katalógusok az adategységek rendszerezésére szolgálnak, és általában az adatelkülönítési séma legfelső szintjeként használják. A katalógusok gyakran tükrözik a szervezeti egységeket vagy a szoftverfejlesztési életciklus hatóköreit. Lásd : Mik azok a katalógusok az Azure Databricksben?.
- A nem adatvédhető objektumok, például a tár hitelesítő adatai és a külső helyek az adatszabályozási modell felügyeletére szolgálnak a Unity Catalogban. Ezek közvetlenül a metaadattár alatt is élnek. Ezeket részletesebben az egyéb biztonságos objektumokban ismertetjük.
Második szint:
- A sémák (más néven adatbázisok) táblákat, nézeteket, köteteket, AI-modelleket és függvényeket tartalmaznak. A sémák az adatokat és az AI-objektumokat a katalógusoknál részletesebb logikai kategóriákba rendezik. A séma általában egyetlen használati esetet, projektet vagy csapat tesztkörnyezetet jelöl. Lásd: Mik azok a sémák az Azure Databricksben?.
Harmadik szint:
- A kötetek strukturálatlan, nem táblázatos adatok logikai kötetei a felhőobjektum-tárolóban. A kötetek kezelhetők úgy, hogy a Unity Catalog felügyeli az adatok teljes életciklusát és elrendezését a tárolóban vagy külső környezetben, a Unity Catalog pedig az Azure Databricksből származó adatokhoz való hozzáférést kezeli, más ügyfelektől származó felhőbeli adatokhoz való hozzáférést azonban nem. Lásd: Mik azok a Unity Catalog-kötetek? és felügyeltek a külső táblákhoz és kötetekhez képest.
- A táblák sorok és oszlopok szerint rendezett adatgyűjtemények. A táblák kezelhetők úgy, hogy a Unity Catalog felügyeli a tábla teljes életciklusát, vagy külső, a Unity Catalog pedig az Azure Databricksből származó adatokhoz való hozzáférést felügyeli, más ügyfelektől származó felhőbeli tárolóban lévő adatokhoz való hozzáférést azonban nem. Lásd: Mik azok a táblák és nézetek? és Felügyelt és külső táblák és kötetek.
- A nézetek egy vagy több táblára mentett lekérdezések. Lásd : Mi az a nézet?.
- A függvények mentett logikai egységek, amelyek skaláris értéket vagy sorkészletet adnak vissza. Lásd a felhasználó által definiált függvényeket (UDF-eket) a Unity Catalogban.
- A modellek MLflow-ban csomagolt AI-modellek, amelyek a Unity Katalógusban függvényként vannak regisztrálva. Lásd: Modell életciklusának kezelése a Unity Katalógusban.
Adatbázis-objektumok használata a Unity Katalógusban
Az adatbázis-objektumokkal való munka a Unity Katalógusban nagyon hasonló a Hive-metaadattárban regisztrált adatbázis-objektumokhoz, azzal a kivétellel, hogy a Hive-metaadattárak nem tartalmaznak katalógusokat az objektumnévtérben. A jól ismert ANSI-szintaxissal adatbázis-objektumokat hozhat létre, adatbázis-objektumokat kezelhet, engedélyeket kezelhet, és adatokat használhat a Unity Katalógusban. Adatbázis-objektumokat is létrehozhat, adatbázis-objektumokat kezelhet, és a Katalóguskezelő felhasználói felületén kezelheti az adatbázis-objektumokra vonatkozó engedélyeket.
További információ: Database objects in Azure Databricks and Work with Unity Catalog and the legacy Hive metastore.
Egyéb biztonságos objektumok
A sémákban található adatbázis-objektumok és AI-objektumok mellett a Unity Catalog az alábbi biztonságos objektumok használatával is szabályozza az adatokhoz való hozzáférést:
A tároló hitelesítő adatai, amelyek egy hosszú távú felhőalapú hitelesítő adatokat foglalnak magában, amely hozzáférést biztosít a felhőbeli tárolókhoz. Lásd: Tároló hitelesítő adatainak létrehozása az Azure Data Lake Storage Gen2-hez való csatlakozáshoz.
Külső helyek, amelyek egy tárolási hitelesítő adatokra és egy felhőbeli tárolási útvonalra mutató hivatkozást tartalmaznak. A külső helyekkel külső táblákat hozhat létre, vagy felügyelt tárolóhelyet rendelhet a felügyelt táblákhoz és kötetekhez. Lásd: Külső hely létrehozása a felhőbeli tárolók Azure Databrickshez való csatlakoztatásához, felügyelt tárterület használatával történő adatelkülönítés, valamint felügyelt tárolóhely megadása a Unity Catalogban.
Olyan kapcsolatok, amelyek olyan hitelesítő adatokat jelentenek, amelyek írásvédett hozzáférést biztosítanak egy külső adatbázishoz egy adatbázisrendszerben, például a MySQL-hez a Lakehouse Federation használatával. Lásd: Lakehouse Federation and Unity Catalog and What is Lakehouse Federation?.
Tiszta szobák, amelyek egy Databricks által felügyelt környezetet jelölnek, ahol több résztvevő együttműködhet a projekteken anélkül, hogy megosztaná az alapul szolgáló adatokat egymással. Lásd : Mi az Azure Databricks Clean Rooms?.
Olyan megosztások, amelyek deltamegosztási objektumok, amelyek írásvédett adatgyűjteményt és AI-objektumokat jelölnek, amelyeket az adatszolgáltató egy vagy több címzettel oszt meg.
A címzettek, amelyek deltamegosztási objektumok, amelyek egy adatszolgáltatótól származó megosztásokat fogadó entitást képviselnek.
Olyan szolgáltatók, amelyek deltamegosztási objektumok, amelyek egy olyan entitást képviselnek, amely adatokat oszt meg egy címzettel.
További információ a deltamegosztás biztonságos objektumairól: Mi az a Delta Sharing?.
Hozzáférés biztosítása és visszavonása adatbázis-objektumokhoz és más biztonságos objektumokhoz a Unity Katalógusban
A hierarchia bármely szintjén biztosíthat és vonhat vissza hozzáférést a biztonságos objektumokhoz, beleértve magát a metaadattárat is. Az objektumhoz való hozzáférés implicit módon ugyanazt a hozzáférést biztosítja az objektum összes gyermekéhez, kivéve, ha a hozzáférés visszavonásra kerül.
Tipikus ANSI SQL-parancsokkal hozzáférést adhat és vonhat vissza az objektumokhoz a Unity Catalogban. Példa:
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Az objektumengedélyek kezeléséhez használhatja a Catalog Explorert, a Databricks parancssori felületet és a REST API-kat is.
A Jogosultságok kezelése a Unity Katalógusban című témakörből megtudhatja, hogyan kezelheti a jogosultságokat a Unity Catalogban.
Adatbázis-objektumok alapértelmezett elérése a Unity Katalógusban
A Unity Catalog a minimális jogosultság elvén működik, ahol a felhasználók minimális hozzáféréssel rendelkeznek a szükséges feladatok elvégzéséhez. Munkaterület létrehozásakor a nem rendszergazdai felhasználók csak az automatikusan kiosztott munkaterület-katalógushoz férhetnek hozzá, így ez a katalógus kényelmes hely a felhasználók számára, hogy kipróbálják az adatbázis-objektumok létrehozásának és elérésének folyamatát a Unity Katalógusban. Lásd: Munkaterület-katalógus jogosultságai.
Adminisztrátori szerepkörök
A munkaterület rendszergazdái és a fiókadminisztrátorai alapértelmezés szerint további jogosultságokkal rendelkeznek. A metaadattár-rendszergazda nem kötelező szerepkör, amely akkor szükséges, ha a táblázat- és kötettárolást metaadattár szintjén szeretné kezelni, és kényelmes, ha egy régió több munkaterületén szeretné központilag kezelni az adatokat. További információ: Rendszergazdai jogosultságok a Unity Katalógusban és (nem kötelező) A metaadattár-rendszergazdai szerepkör hozzárendelése.
Felügyelt és külső táblák és kötetek
A táblák és kötetek kezelhetők vagy külsőek is lehetnek.
- A felügyelt táblákat teljes mértékben a Unity Catalog felügyeli, ami azt jelenti, hogy a Unity Catalog az egyes felügyelt táblák irányítási és mögöttes adatfájljait is kezeli. A felügyelt táblák a unitykatalógus által felügyelt helyen vannak tárolva a felhőbeli tárolóban. A felügyelt táblák mindig a Delta Lake formátumot használják. A felügyelt táblákat a metaadattár, a katalógus vagy a séma szintjén tárolhatja.
- A külső táblák olyan táblák, amelyek hozzáférését az Azure Databricksből a Unity Catalog felügyeli, de az adatok életciklusa és a fájlelrendezés a felhőszolgáltató és más adatplatformok használatával történik. Általában külső táblák használatával regisztrál nagy mennyiségű meglévő adatot az Azure Databricksben, vagy ha írási hozzáférést is igényel az adatokhoz az Azure Databricksen kívüli eszközökkel. A külső táblák több adatformátumban is támogatottak. Miután regisztrált egy külső táblát egy Unity Catalog-metaadattárban, ugyanúgy kezelheti és naplózhatja az Azure Databricks hozzáférését, és dolgozhat vele, mint a felügyelt táblákkal.
- A felügyelt köteteket teljes mértékben a Unity Catalog felügyeli, ami azt jelenti, hogy a Unity Catalog felügyeli a kötet tárolási helyéhez való hozzáférést a felhőszolgáltató fiókjában. Felügyelt kötet létrehozásakor a rendszer automatikusan az azt tartalmazó sémához rendelt felügyelt tárolóhelyen tárolja.
- A külső kötetek az Azure Databricksen kívül felügyelt, de a Unity Katalógusban regisztrált, az Azure Databricksen belüli hozzáférés szabályozására és naplózására szolgáló tárolóhelyeken lévő meglévő adatokat jelölik. Amikor külső kötetet hoz létre az Azure Databricksben, meg kell adnia annak helyét, amelynek egy Unity Catalog külső helyen definiált elérési útján kell lennie.
A Databricks felügyelt táblákat és köteteket javasol a Unity Catalog szabályozási képességeinek és teljesítményoptimalizálásainak teljes kihasználásához.
Lásd: Felügyelt táblák kezelése, Külső táblák kezelése és Felügyelt és külső kötetek.
Adatelkülönítés felügyelt tárterület használatával
Előfordulhat, hogy a szervezet megköveteli bizonyos típusú adatok tárolását a felhőbeli bérlő adott fiókjaiban vagy gyűjtőiben.
A Unity Catalog lehetővé teszi, hogy a metaadattár, a katalógus vagy a séma szintjén konfigurálja a tárolási helyeket az ilyen követelményeknek megfelelően. A rendszer kiértékeli a tárolási helyek hierarchiáját a sémától a katalóguson át a metaadattárig.
Tegyük fel például, hogy a szervezet rendelkezik egy vállalati megfelelőségi szabályzattal, amely megköveteli az emberi erőforrásokhoz kapcsolódó éles adatok tárolását a tároló abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net. A Unity Katalógusban ezt a követelményt úgy érheti el, hogy beállít egy helyet katalógusszinten, létrehoz egy úgynevezett katalógust, például hr_prod
, és hozzárendeli a hely abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-katalógust hozzá. Ez azt jelenti, hogy a hr_prod
katalógusban létrehozott felügyelt táblák vagy kötetek (például a használatával CREATE TABLE hr_prod.default.table …
) abfss:///unity-katalógusbanmycompany-hr-prod@storage-account.dfs.core.windows.net tárolják az adataikat. Igény szerint sémaszintű helyeket is megadhat az adatok hr_prod catalog
részletesebb szintű rendszerezéséhez.
Ha egyes katalógusokhoz nincs szükség tárolóelkülönítésre, igény szerint beállíthat egy tárolóhelyet a metaadattár szintjén. Ez a hely alapértelmezett hely a katalógusokban és sémákban lévő felügyelt táblák és kötetek számára, amelyekhez nincs hozzárendelve tárterület. A Databricks azonban általában azt javasolja, hogy minden katalógushoz külön felügyelt tárolóhelyeket rendeljen hozzá.
További információ: Felügyelt tárolóhely megadása a Unity Katalógusban , és az adatok fizikailag elkülönülnek a tárolóban.
Munkaterület-katalógus kötése
Alapértelmezés szerint a katalógustulajdonosok (és a metaadattár rendszergazdái, ha a fiókhoz vannak definiálva) elérhetővé tehetnek egy katalógust az ugyanazon Unity Catalog-metaadattárhoz csatolt több munkaterület felhasználói számára. Ha azonban munkaterületekkel elkülöníti a felhasználói adatokhoz való hozzáférést, érdemes lehet korlátoznia a katalógus hozzáférését a fiók adott munkaterületeihez, hogy bizonyos típusú adatok csak ezeken a munkaterületeken legyenek feldolgozva. Előfordulhat, hogy külön éles és fejlesztési munkaterületet szeretne, például egy külön munkaterületet a személyes adatok feldolgozásához. Ezt nevezik munkaterület-katalógus kötésnek. Lásd: Katalógushozzáférés korlátozása adott munkaterületekhez.
Feljegyzés
A nagyobb adatelkülönítés érdekében a felhőbeli tárterület-hozzáférést adott munkaterületekhez is kötheti. Lásd : (Nem kötelező) Tároló hitelesítő adatainak hozzárendelése adott munkaterületekhez , és (Nem kötelező) Külső hely hozzárendelése adott munkaterületekhez.
Adathozzáférés naplózása
A Unity Catalog rögzíti a metaadattáron végrehajtott műveletek naplóját, amely lehetővé teszi a rendszergazdák számára, hogy részletes információkat kapjanak arról, hogy ki fért hozzá egy adott adatkészlethez és az általuk végrehajtott műveletekhez.
A fiók naplózási naplóit a Unity Catalog által felügyelt rendszertáblákkal érheti el.
Lásd: Unity Catalog-események, Unity-katalógusesemények és használat figyelése rendszertáblákkal.
Adatsorok nyomon követése
A Unity Catalog használatával bármilyen, Azure Databricks-fürtön vagy SQL Warehouse-on végrehajtott nyelven rögzítheti a futtatókörnyezeti adatsorokat a lekérdezések között. A rendszer az oszlopszintig rögzíti a sorokat, és a lekérdezéshez kapcsolódó jegyzetfüzeteket, feladatokat és irányítópultokat is tartalmaz. További információ: Adatsor rögzítése és megtekintése a Unity Catalog használatával.
Lakehouse Federation és Unity Catalog
A Lakehouse Federation az Azure Databricks lekérdezés-összevonási platformja. A lekérdezési összevonás kifejezés olyan funkciók gyűjteményét ismerteti, amelyek lehetővé teszik a felhasználók és a rendszerek számára, hogy lekérdezéseket futtasson több silózott adatforráson anélkül, hogy az összes adatot egységes rendszerbe kellene migrálniuk.
Az Azure Databricks a Unity Catalog használatával kezeli a lekérdezések összevonását. A Unity Catalog használatával írásvédett kapcsolatokat konfigurálhat a népszerű külső adatbázisrendszerekhez, és külső adatbázisokat tükröző idegen katalógusokat hozhat létre. A Unity Catalog adatszabályozási és adatleágazási eszközei biztosítják, hogy az adathozzáférés kezelése és naplózása a felhasználók által az Azure Databricks-munkaterületeken végzett összes összevont lekérdezés esetében történjen.
Lásd : Mi az a Lakehouse Federation?.
Delta Sharing, Databricks Marketplace és Unity Catalog
A Delta Sharing egy biztonságos adatmegosztási platform, amely lehetővé teszi adatok és AI-eszközök megosztását a szervezeten kívüli felhasználókkal, függetlenül attól, hogy ezek a felhasználók használják-e a Databrickset. Bár a Delta Sharing nyílt forráskódú implementációként érhető el, a Databricksben a Unity Catalognak teljes mértékben ki kell használnia a kiterjesztett funkciókat. Lásd : Mi az a deltamegosztás?.
A Databricks Marketplace, az adattermékek cseréjének nyílt fóruma a Delta Sharingre épül, és ezért unitykatalógus-kompatibilis munkaterületre van szükség ahhoz, hogy Marketplace-szolgáltató legyen. Lásd : Mi az a Databricks Marketplace?.
Hogyan állítsa be a Unity Katalógust a szervezetem számára?
A Unity Catalog használatához engedélyezni kell az Azure Databricks-munkaterületet a Unity Cataloghoz, ami azt jelenti, hogy a munkaterület egy Unity Catalog-metaadattárhoz van csatolva.
Hogyan kapcsolódik egy munkaterület egy metaadattárhoz? Ez a fióktól és a munkaterülettől függ:
- Amikor először hoz létre Azure Databricks-munkaterületet egy régióban, a metaadattár automatikusan létrejön, és a munkaterülethez van csatolva.
- Néhány régebbi fiók esetében a fiókadminisztrátornak létre kell hoznia a metaadattárat, és hozzá kell rendelnie a régióban lévő munkaterületeket a metaadattárhoz. Útmutatásért lásd: Unity Catalog-metaadattár létrehozása.
- Ha egy fiók már rendelkezik egy régióhoz hozzárendelt metaadattárval, a fiókadminisztrátor eldöntheti, hogy automatikusan csatolja-e a metaadattárat az adott régió összes új munkaterületéhez. Lásd: Metaadattár automatikus hozzárendelésének engedélyezése új munkaterületekhez.
Ha a munkaterület automatikusan engedélyezve lett-e a Unity Cataloghoz, a Unity Catalog használatának megkezdéséhez az alábbi lépésekre is szükség van:
- Katalógusokat és sémákat hozhat létre, amelyek adatbázis-objektumokat, például táblákat és köteteket tartalmaznak.
- Felügyelt tárolóhelyeket hozhat létre a felügyelt táblák és kötetek tárolásához ezekben a katalógusokban és sémákban.
- Hozzáférést biztosíthat a felhasználóknak a katalógusokhoz, sémákhoz és adatbázis-objektumokhoz.
A Unity Cataloghoz automatikusan engedélyezett munkaterületek olyan munkaterület-katalógust építenek ki, amely széles körű jogosultságokkal rendelkezik az összes munkaterület-felhasználó számára. Ez a katalógus kényelmes kiindulópont a Unity Catalog kipróbálásához.
Részletes beállítási utasításokért tekintse meg a Unity-katalógus beállítását és kezelését ismertető cikket.
Meglévő munkaterület migrálása a Unity Catalogba
Ha van egy régebbi munkaterülete, amelyet nemrég engedélyezett a Unity Cataloghoz, valószínűleg az örökölt Hive-metaadattár kezeli az adatokat. Az adatokkal a Unity Katalógusban regisztrált adatok mellett dolgozhat, de az örökölt Hive metaadattár elavult, és a Lehető leghamarabb át kell telepítenie a Hive-metaadattárban lévő adatokat a Unity Catalogba, hogy kihasználhassa a Unity Catalog kiváló szabályozási képességeit és teljesítményét.
A migrálás a következőket foglalja magában:
- Bármely munkaterület-helyi csoport átalakítása fiókszintű csoportokká. A Unity Catalog központosítja az identitáskezelést a fiók szintjén.
- A Hive metaadattárában kezelt táblák és nézetek migrálása a Unity Catalogba.
- Frissítse a lekérdezéseket és a feladatokat, hogy a régi Hive-metaadattár-táblák helyett hivatkozzon az új Unity Catalog-táblákra.
Az alábbiak segíthetnek a migrálás kezelésében:
A Databricks Labs-projekt, az UCX olyan eszközöket biztosít, amelyekkel a nem Unity-catalog munkaterületet Unity Catalogra frissítheti. Az UCX jó választás nagyobb léptékű migrálásokhoz. Lásd: Az UCX-segédprogramok használata a munkaterület Unity Catalogra való frissítéséhez.
Ha kisebb számú táblát kell migrálnia, az Azure Databricks felhasználói felületi varázslót és SQL-parancsokat biztosít, amelyeket használhat. Lásd: Hive-táblák és nézetek frissítése Unity-katalógusra.
Ha tudni szeretné, hogyan használhat táblákat a Hive-metaadattárban az ugyanazon a munkaterületen található Unity Catalog adatbázis-objektumai mellett, olvassa el a Unity Catalog és az örökölt Hive metaadattár használata című témakört.
A Unity Catalog követelményei és korlátozásai
A Unity Cataloghoz az alábbiakban ismertetett számítási és fájlformátumok meghatározott típusai szükségesek. Az alábbiakban néhány Olyan Azure Databricks-funkciót is felsorolunk, amelyek nem támogatottak teljes mértékben a Unity Katalógusban az összes Databricks Runtime-verzióban.
Régiótámogatás
Minden régió támogatja a Unity Catalogot. További részletekért tekintse meg az Azure Databricks-régiókat.
Számítási követelmények
A Unity Catalog a Databricks Runtime 11.3 LTS-t vagy újabb verzióját futtató fürtökön támogatott. A Unity Catalog alapértelmezés szerint minden SQL Warehouse számítási verzióban támogatott.
A Databricks Runtime korábbi verzióiban futó fürtök nem támogatják a Unity Catalog GA összes funkcióját és funkcióját.
A Unity Catalogban az adatok eléréséhez a fürtöket a megfelelő hozzáférési móddal kell konfigurálni. A Unity Katalógus alapértelmezés szerint biztonságos. Ha egy fürt nincs konfigurálva megosztott vagy egyfelhasználós hozzáférési móddal, a fürt nem tud adatokat elérni a Unity Katalógusban. Lásd: Hozzáférési módok.
Az egyes Databricks Runtime-verziókban a Unity Catalog funkcióinak változásaival kapcsolatos részletes információkért tekintse meg a kibocsátási megjegyzéseket.
A Unity Catalog korlátozásai a hozzáférési módtól és a Databricks Runtime-verziótól függően változnak. Lásd a Unity Catalog számítási hozzáférési módra vonatkozó korlátozásait.
Fájlformátum támogatása
A Unity Catalog a következő táblázatformátumokat támogatja:
- A felügyelt tábláknak a táblaformátumot
delta
kell használniuk. - A külső táblák használhatják
delta
a ,CSV
,JSON
,avro
,parquet
vagytext
ORC
.
Korlátozások
A Unity Catalogra az alábbi korlátozások vonatkoznak. Ezek némelyike a Régebbi Databricks Runtime-verziókra és a számítási hozzáférési módokra vonatkozik.
A strukturált streamelési számítási feladatok további korlátozásokkal rendelkeznek a Databricks futtatókörnyezetétől és a hozzáférési módtól függően. Lásd a Unity Catalog számítási hozzáférési módra vonatkozó korlátozásait.
A Databricks olyan új funkciókat ad ki, amelyek rendszeresen zsugorítják ezt a listát.
A korábban munkaterületen (azaz munkaterületszintű csoportokban) létrehozott csoportok nem használhatók a Unity Catalog-utasításokban
GRANT
. Ennek célja, hogy egységes nézetet biztosítson a munkaterületeken átnyúló csoportokról. A csoportok T-utasításokbanGRAN
való használatához hozza létre a csoportokat a fiók szintjén, és frissítse az egyszerű vagy csoportkezelés (például SCIM, Okta és Microsoft Entra ID-összekötők és Terraform) automatizálását a fiókvégpontokra való hivatkozáshoz a munkaterületvégpontok helyett. Lásd a fiókcsoportok és a munkaterület helyi csoportjai közötti különbséget.Az R számítási feladatai nem támogatják a dinamikus nézetek használatát sorszintű vagy oszlopszintű biztonsághoz a Databricks Runtime 15.3-at és újabb verzióit futtató számítási feladatok esetében.
A Databricks Runtime 15.4 LTS-t vagy újabb verziót futtató egyetlen felhasználói számítási erőforrást használjon dinamikus nézeteket lekérdező R számítási feladatokhoz. Az ilyen számítási feladatokhoz olyan munkaterületre is szükség van, amely engedélyezve van a kiszolgáló nélküli számításhoz. Részletekért lásd az egyfelhasználós számítás részletes hozzáférés-vezérlését.
A sekély klónok nem támogatottak a Unity Katalógusban a Databricks Runtime 12.2 LTS-t futtató számítási feladatokhoz. A sekély klónokkal felügyelt táblákat hozhat létre a Databricks Runtime 13.3 LTS-en és újabb verziókon. A Databricks Runtime verziójától függetlenül nem használhatja őket külső táblák létrehozására. Lásd: Shallow clone for Unity Catalog tables.
A gyűjtőzés nem támogatott a Unity Catalog-táblák esetében. Ha olyan parancsokat futtat, amelyek egy gyűjtős táblát próbálnak létrehozni a Unity Catalogban, az kivételt okoz.
Ha több régió munkaterületéről ugyanarra az útvonalra vagy Delta Lake-táblára ír, az megbízhatatlan teljesítményhez vezethet, ha egyes fürtök hozzáférnek a Unity Katalógushoz, míg mások nem.
A parancsokkal
ALTER TABLE ADD PARTITION
létrehozott egyéni partíciós sémák nem támogatottak a Unity Catalog tábláiban. A Unity Catalog könyvtárstílusú particionálást használó táblákhoz férhet hozzá.A DataFrame írási műveleteinek felülírási módja a Unity Catalogban csak Delta-táblák esetében támogatott, más fájlformátumok esetében nem. A felhasználónak rendelkeznie kell a
CREATE
szülőséma jogosultságával, és a meglévő objektum tulajdonosának kell lennie, vagy rendelkeznie kell azMODIFY
objektum jogosultságával.A Python UDF-ek nem támogatottak a Databricks Runtime 12.2 LTS-ben és az alábbi verziókban. Ide tartoznak az UDAF-ek, az UDTF-ek és a Pandas a Sparkon (
applyInPandas
ésmapInPandas
). A Python skaláris UDF-eket a Databricks Runtime 13.3 LTS és újabb verziók támogatják.A Scala UDF-ek nem támogatottak a Databricks Runtime 14.1-ben és alatta megosztott fürtökön. A Scala skaláris UDF-ek támogatottak a Databricks Runtime 14.2-ben és újabb verziókban megosztott fürtökön.
A standard Scala-szálkészletek nem támogatottak. Ehelyett használja például a speciális szálkészleteket
org.apache.spark.util.ThreadUtils
org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool
. A következő szálkészletekThreadUtils
azonban nem támogatottak:ThreadUtils.newForkJoinPool
és egyetlen szálkészlet semScheduledExecutorService
.A naplózás csak a munkaterület szintjén támogatott Unity Catalog-események esetében. A fiók szintjén, munkaterületre való hivatkozás nélkül zajló események, például metaadattár létrehozása, nem lesznek naplózva.
A Unity Katalógusban regisztrált modellekre további korlátozások vonatkoznak. Lásd: Korlátozások.
Erőforráskvóták
A Unity katalógus minden védendő objektumra erőforráskvótákat kényszerít rá. Ezek a kvóták az erőforráskorlátokban vannak felsorolva. Ha várhatóan túllépi ezeket az erőforráskorlátokat, forduljon az Azure Databricks-fiók csapatához.
A kvótahasználatot a Unity Catalog erőforráskvóta API-kkal figyelheti. Lásd: A Unity Catalog erőforráskvóták használatának monitorozása.