A Unity Catalog használata csövezésekkel

A Databricks javasolja a Lakeflow Spark Deklaratív folyamatok konfigurálását a Unity Catalog használatával. Az újonnan létrehozott folyamatok esetében a Unity Catalog használata az alapértelmezett.

A Unity-katalógussal konfigurált folyamatok az összes definiált materializált nézetet és streamtáblát közzéteszik a megadott katalógusban és sémában. A Unity Catalog-folyamatok más Unity Catalog-táblákból és kötetekből is olvashatók.

A Unity Catalog-folyamat által létrehozott táblák engedélyeinek kezeléséhez használja a GRANT és a REVOKE.

Megjegyzés:

Ez a cikk a pipelines jelenlegi alapértelmezett közzétételi módjának funkcióit ismerteti. A 2025. február 5. előtt létrehozott pipeline-ek a régi közzétételi módot és a LIVE virtuális sémát használhatják. Lásd: LIVE séma (régi változat).

Követelmények

Ha streamelési táblákat és materializált nézeteket szeretne létrehozni egy célsémában a Unity Catalogban, a következő engedélyekkel kell rendelkeznie a sémához és a szülőkatalógushoz:

USE CATALOG jogosultságok a célkatalógusban.
A célsémára CREATE MATERIALIZED VIEW és USE SCHEMA jogosultságokat kell biztosítani, ha a folyamat materializált nézeteket hoz létre.
CREATE TABLE és USE SCHEMA jogosultságok a célséma vonatkozásában, ha a csővezeték adatfolyam táblákat hoz létre.
Ha a folyamat új sémákat hoz létre, USE CATALOG és CREATE SCHEMA jogosultságokkal kell rendelkeznie a célkatalógusban.

A Unity Catalog-kompatibilis folyamat futtatásának számítási követelményei:

A számítási erőforrást szabványos hozzáférési móddal kell konfigurálni. A dedikált számítás nem támogatott. Lásd: Hozzáférési módok.

A pipeline-ok által a Unity Catalog használatával létrehozott táblák lekérdezéséhez szükséges számítási erőforrások (ideértve a streamelési táblákat és a materializált nézeteket) az alábbiak bármelyikét tartalmazhatják:

SQL-raktárak
Standard hozzáférési mód számítása a Databricks Runtime 13.3 LTS vagy újabb verzióján.
Dedikált hozzáférési módú számítás, ha a részletes hozzáférés-vezérlés engedélyezve van a dedikált számításon (azaz a Databricks Runtime 15.4-et vagy újabb verzióját futtatja, és a kiszolgáló nélküli számítás engedélyezve van a munkaterületen). További információ: Részletes hozzáférés-vezérlés dedikált számításon.
Dedikált hozzáférési mód számítása 13,3 LTS és 15.3 között, csak akkor, ha a tábla tulajdonosa futtatja a lekérdezést.

További számítási korlátozások érvényesek. Tekintse meg az alábbi szakaszt.

korlátozások

A Unity Catalog folyamatokkal való használatakor a következők a korlátozások:

Alapértelmezés szerint csak a folyamat tulajdonosa és a munkaterület rendszergazdái tekinthetik meg az illesztőprogram-naplókat a Unity Catalog-kompatibilis folyamatot futtató számításból. Ha engedélyezni szeretné, hogy más felhasználók hozzáférjenek az illesztőprogram-naplókhoz, tekintse meg a A nem rendszergazdai felhasználók megtekinthetik az illesztőprogram-naplókat egy Unity Katalógus-kompatibilis folyamatból.
A Hive metaadattárat használó meglévő folyamatok nem frissíthetők a Unity Catalog használatára. A Hive metaadattárba írt meglévő folyamat migrálásához létre kell hoznia egy új folyamatot, és újra kell betöltenie az adatokat az adatforrás(ok)ból. Lásd: Unity Catalog-folyamat létrehozása Hive-metaadattár-folyamat klónozásával.

A Unity Catalog-kompatibilis folyamat nem hozható létre egy olyan metaadattárhoz csatolt munkaterületen, amelyet a Unity Catalog nyilvános előzetes verziója során hoztak létre. Tekintse meg a jogosultságöröklés frissítését.

A JAR-ek nincsenek támogatva. Csak külső Python-kódtárak támogatottak. Lásd: Folyamatok Python-függőségeinek kezelése.
A streamelési tábla sémáját módosító adatmanipulációs nyelvi (DML-) lekérdezések nem támogatottak.
A folyamatokban létrehozott materializált nézet nem használható streamforrásként a folyamaton kívül, például egy másik folyamatban vagy egy alárendelt jegyzetfüzetben.
A materializált nézetek és streaming táblák adatai a tartalmazó séma tárolási helyén vannak tárolva. Ha nincs megadva sématároló hely, a rendszer a táblákat a katalógus tárolási helyén tárolja. Ha a séma- és katalógustárolási helyek nincsenek megadva, a táblák a metaadattár gyökértárolójában lesznek tárolva.
A Katalóguskezelő Előzmények lap nem jeleníti meg a materializált nézetek előzményeit.
A LOCATION tulajdonság nem támogatott tábla definiálásakor.
A Unity Catalog-kompatibilis folyamatok nem tudnak közzétenni a Hive-metaadattárban.

A Python UDF támogatása nyilvános előzetes verzióban.

Megjegyzés:

A materializált nézeteket támogató mögöttes fájlok tartalmazhatnak olyan felsőbb rétegbeli táblákból származó adatokat (beleértve a személyazonosításra alkalmas adatokat is), amelyek nem jelennek meg a materializált nézetdefinícióban. Ezeket az adatokat a rendszer automatikusan hozzáadja a mögöttes tárolóhoz, hogy támogassa a materializált nézetek növekményes frissítését.

Mivel a materializált nézet alapjául szolgáló fájlok a materializált nézet sémájának nem részét képező felsőbb rétegbeli táblákból származó adatok feltárását kockáztathatják, a Databricks azt javasolja, hogy ne ossza meg az alapul szolgáló tárolót a nem megbízható alsóbb rétegbeli felhasználókkal.

Tegyük fel például, hogy egy materializált nézetdefiníció tartalmaz egy COUNT(DISTINCT field_a) záradékot. Annak ellenére, hogy a materializált nézetdefiníció csak az összesített COUNT DISTINCT záradékot tartalmazza, a mögöttes fájlok tartalmazzák a field_atényleges értékeinek listáját.

Használhatom együtt a Hive metaadattárat és a Unity Catalog-folyamatokat?

A munkaterület tartalmazhat a Unity Catalogot és az örökölt Hive-metaadattárat használó folyamatokat. Egyetlen folyamat azonban nem tud írni a Hive metaadattárba és a Unity-katalógusba. A Hive metaadattárba írt meglévő folyamatok nem frissíthetők a Unity Catalog használatára. A Hive metaadattárba írt meglévő folyamat migrálásához létre kell hoznia egy új folyamatot, és újra kell betöltenie az adatokat az adatforrás(ok)ból. Lásd: Unity Catalog-folyamat létrehozása Hive-metaadattár-folyamat klónozásával.

A Unity-katalógust nem használó meglévő folyamatokra nincs hatással a Unity Katalógussal konfigurált új folyamatok létrehozása. Ezek a folyamatok továbbra is megőrzik az adatokat a Hive metaadattárban a konfigurált tárolási hely használatával.

Ha a dokumentum másként nem rendelkezik, a Unity-katalógust használó folyamatok minden meglévő adatforrást és folyamatfunkciót támogatnak. A Python- és SQL-interfészek egyaránt támogatottak a Unity Catalogot használó folyamatokkal.

Inaktív táblák

Ha egy folyamat úgy van konfigurálva, hogy megőrizze az adatokat a Unity Catalogban, a folyamat kezeli a tábla életciklusát és engedélyeit.

A táblák inaktívvá válhatnak, ha definíciójukat eltávolítják egy folyamatból. A következő folyamatfrissítés inaktívként jelöli meg a megfelelő materializált nézetet vagy streamelési táblabejegyzést.

Ha módosítja a folyamat alapértelmezett katalógusát vagy sémáját, és nem használ teljes táblaneveket a folyamat forráskódjában, a következő folyamatfuttatás létrehozza a materializált nézetet vagy streamelési táblát az új katalógusban vagy sémában, és a régi helyen lévő korábbi materializált nézet vagy streamelő tábla inaktívként van megjelölve.

Az inaktív táblákat továbbra is lekérdezheti, de a folyamat már nem frissíti őket. A materializált nézetek vagy streamelési táblák törléséhez explicit módon DROP a táblát. A folyamat törlésekor az inaktív táblák törlődnek.

A parancs használatával 7 napon belül helyreállíthatja az UNDROP elvetett táblákat.
Ha meg szeretné őrizni az örökölt viselkedést, amikor a materializált nézet vagy a streamelési tábla bejegyzése el lesz távolítva a Unity Katalógusból a következő folyamatfrissítéskor, állítsa be a folyamatkonfigurációs "pipelines.dropInactiveTables": "true". A rendszer egy ideig megőrzi a tényleges adatokat, hogy azok helyreállíthatók legyenek, ha véletlenül törölték őket. Az adatok 7 napon belül helyreállíthatók úgy, hogy a materializált nézetet vagy a streamelési táblát újra hozzáadják a folyamatdefinícióhoz.

A folyamat teljes törlése (szemben a tábladefiníció eltávolításával a folyamat forrásából) szintén törli a folyamatban definiált összes táblát. A felhasználói felület kéri, hogy erősítse meg egy pipeline törlését.

Táblák írása a Unity Katalógusba egy adatfolyamatból

Ha a táblákat a Unity Catalogba szeretné írni, konfigurálnia kell az adatfolyamot, hogy az a munkaterületen keresztül működjön. Amikor létrehoz egy folyamatot, válassza ki a Unity CatalogTárolási lehetőségek között, válasszon katalógust a Katalógus legördülő menüből, és válasszon meglévő sémát, vagy adja meg egy új séma nevét a Célséma legördülő menüben. A Unity Catalog katalógusairól további információért lásd: Mik azok a katalógusok az Azure Databricksben?. A Unity Catalog sémáiról szóló információkért lásd a Mik azok a sémák az Azure Databricksben?.

Adatok betöltése a Unity Catalog-adatfeldolgozó csővezetékbe

A Unity Catalog használatára konfigurált folyamat a következő adatokból tud adatokat olvasni:

A Unity Catalog által felügyelt és külső táblák, nézetek, materializált nézetek és folyamatos táblák.
Hive metaadattártáblák és nézetek.
Automatikus betöltő a read_files() függvényt használva a Unity Catalog külső helyszíneiről való olvasáshoz.
Apache Kafka és Amazon Kinesis.

Az alábbiakban példákat láthat a Unity Catalog és a Hive metaadattár tábláinak olvasására.

Batch-betöltés Unity-katalógustáblából

SQL

CREATE OR REFRESH MATERIALIZED VIEW
  table_name
AS SELECT
  *
FROM
  my_catalog.my_schema.table1;

Python

@dp.materialized_view
def table_name():
  return spark.read.table("my_catalog.my_schema.table")

A változások streamelése a Unity Catalog táblából

SQL

CREATE OR REFRESH STREAMING TABLE
  table_name
AS SELECT
  *
FROM
  STREAM(my_catalog.my_schema.table1);

Python

@dp.table
def table_name():
  return spark.readStream.table("my_catalog.my_schema.table")

Adatok betöltése a Hive metaadattárából

A Unity-katalógust használó folyamatok a Hive metaadattártábláiból olvashatnak adatokat a hive_metastore katalógus használatával:

SQL

CREATE OR REFRESH MATERIALIZED VIEW
  table_name
AS SELECT
  *
FROM
  hive_metastore.some_schema.table;

Python

@dp.materialized_view
def table3():
  return spark.read.table("hive_metastore.some_schema.table")

Adatok betöltése az automatikus betöltőből

SQL

CREATE OR REFRESH STREAMING TABLE table_name
AS SELECT *
FROM STREAM read_files(
  "/path/to/uc/external/location",
  format => "json"
)

Python

@dp.table(table_properties={"quality": "bronze"})
def table_name():
  return (
     spark.readStream.format("cloudFiles")
     .option("cloudFiles.format", "json")
     .load(f"{path_to_uc_external_location}")
 )

Alapértelmezés szerint csak a folyamat tulajdonosa rendelkezik engedéllyel a folyamat által létrehozott adathalmazok lekérdezésére. Lehetővé teheti más felhasználóknak, hogy GRANT utasítások használatával lekérdezhessenek egy táblát, és REVOKE utasítások használatával visszavonhatják a lekérdezési hozzáférést. A Unity Catalog jogosultságairól további információt a Jogosultságok kezelése a Unity Katalógusbancímű témakörben talál.

SELECT jogosultság megadása egy táblán

GRANT SELECT ON TABLE
  my_catalog.my_schema.table_name
TO
  `user@databricks.com`

Kijelölés visszavonása egy táblában

REVOKE SELECT ON TABLE
  my_catalog.my_schema.table_name
FROM
  `user@databricks.com`

Táblalétrehozási vagy materializált nézet létrehozási jogosultság biztosítása

GRANT CREATE { MATERIALIZED VIEW | TABLE } ON SCHEMA
  my_catalog.my_schema
TO
  { principal | user }

Folyamathoz tartozó vonalasság megtekintése

A folyamatokban definiált táblákhoz tartozó vonalasság a Catalog Explorerben látható. A Katalóguskezelő termékcsalád felhasználói felülete megjeleníti a materializált nézetekhez vagy streamelőtáblákhoz tartozó felső és alsóbb rétegbeli táblákat egy Unity Catalog-kompatibilis folyamatban. Ha többet szeretne megtudni a Unity Catalog adatok származásáról, olvassa el az adatsorok megtekintése a Unity Catalog használatával című témakört.

A Unity Catalog-kompatibilis folyamatok materializált nézeteihez vagy streamelési tábláihoz a Catalog Explorer termékoldali felhasználói felülete is hivatkozni fog a materializált nézetet vagy streamelési táblát előállító folyamatra, ha a folyamat elérhető az aktuális munkaterületről.

Stream-táblázatban lévő adatok hozzáadása, módosítása vagy törlése

Az adatmanipulációs nyelvi (DML) utasítások , például beszúrási, frissítési, törlési és egyesítési utasítások használatával módosíthatja a Unity Catalogban közzétett streamtáblákat. A DML-lekérdezések streamelési táblákon történő támogatása olyan használati eseteket tesz lehetővé, mint például a táblák frissítése az általános adatvédelmi rendeletnek (GDPR) való megfelelés érdekében.

Megjegyzés:

A streamelési tábla táblázatsémát módosító DML-utasítások nem támogatottak. Győződjön meg arról, hogy a DML-utasítások nem próbálják továbbfejleszteni a táblázatsémát.
A streamelési táblát frissítő DML-utasítások csak megosztott Unity Catalog-fürtön vagy SQL-raktárban futtathatók a Databricks Runtime 13.3 LTS és újabb verziók használatával.
Mivel a streamelés csak hozzáfűző adatforrásokat igényel, ha a feldolgozáshoz egy forrásstreamelési táblából kell streamelni módosításokkal (például DML-utasításokkal), állítsa be a skipChangeCommits jelölőt a forrásstreamelési tábla olvasásakor. Ha skipChangeCommits van beállítva, a rendszer figyelmen kívül hagyja a forrástábla rekordjait törlő vagy módosító tranzakciókat. Ha a feldolgozáshoz nincs szükség streamelési táblára, céltáblaként használhat materializált nézetet, amelyre nem vonatkozik a csak hozzáfűzési korlátozás.

Az alábbiakban olyan DML-utasításokat mutatunk be, amelyek módosítják a streamelési táblák rekordjait.

Adott azonosítójú rekordok törlése:

DELETE FROM my_streaming_table WHERE id = 123;

Adott azonosítójú rekordok frissítése:

UPDATE my_streaming_table SET name = 'Jane Doe' WHERE id = 123;

Táblázatok közzététele sorszűrőkkel és oszlopmaszkokkal

Sorszűrők lehetővé teszik egy szűrőként alkalmazható függvény megadását, amikor egy táblavizsgálat sorokat olvas be. Ezek a szűrők biztosítják, hogy a későbbi lekérdezések csak olyan sorokat adjanak vissza, amelyek esetében a szűrő predikátum értéke igaz.

Az oszlopmaszkok lehetővé teszik az oszlopok értékeinek maszkolását, amikor egy táblázat beolvassa a sorokat. Az oszlop jövőbeli lekérdezései a kiértékelt függvény eredményét adják vissza az oszlop eredeti értéke helyett. További információ a sorszűrők és oszlopmaszkok használatáról: Sorszűrők és oszlopmaszkok.

Sorszűrők és oszlopmaszkok kezelése

A materializált nézetek és streamtáblák sorszűrőit és oszlopmaszkjait a CREATE OR REFRESH utasítással kell hozzáadni, frissíteni vagy elvetni.

A sorszűrőkkel és oszlopmaszkokkal rendelkező táblák meghatározásának részletes szintaxisát lásd a Pipeline SQL nyelvi referencia és a Lakeflow Spark deklaratív csővezetékek Python nyelvi referencia dokumentációban.

Magatartás

A sorszűrők vagy oszlopmaszkok folyamaton belüli használatakor az alábbiak a fontos részletek:

Frissítés tulajdonosként: Amikor egy folyamatfrissítés materializált nézetet vagy streamelési táblát frissít, a sorszűrő és az oszlopmaszk-függvények a folyamat tulajdonosi jogosultságaival futnak. Ez azt jelenti, hogy a táblafrissítés a folyamatot létrehozó felhasználó biztonsági környezetét használja. A felhasználói környezetet ellenőrző függvények (például CURRENT_USER és IS_MEMBER) kiértékelése a folyamat tulajdonosának felhasználói környezetével történik.
Lekérdezés: Materializált nézet vagy streamelési tábla lekérdezésekor a felhasználói környezetet ellenőrző függvények (például CURRENT_USER és IS_MEMBER) kiértékelése a meghívó felhasználói környezetével történik. Ez a megközelítés a felhasználóspecifikus adatbiztonságot és hozzáférés-vezérlést kényszeríti ki az aktuális felhasználó kontextusa alapján.
Amikor sorszűrőket és oszlopmaszkokat tartalmazó forrástáblákon hoz létre materializált nézeteket, a materializált nézet frissítése mindig teljes frissítés. A teljes frissítés a forrásban elérhető összes adatot a legújabb definíciókkal dolgozza fel újra. Ez a folyamat ellenőrzi, hogy a forrástáblák biztonsági szabályzatai kiértékelése és alkalmazása a legup-tonaprakész adatokkal és meghatározásokkal történik-e.

Observability

Az DESCRIBE EXTENDED, a INFORMATION_SCHEMAvagy a Katalóguskezelő használatával vizsgálja meg azokat a meglévő sorszűrőket és oszlopmaszkokat, amelyek egy adott materializált nézetre vagy streamelési táblára vonatkoznak. Ez a funkció lehetővé teszi a felhasználók számára az adathozzáférési és védelmi intézkedések naplózását és felülvizsgálatát a materializált nézeteken és streamelési táblákon.

Visszajelzés

Hasznosnak találta ezt az oldalt?

Last updated on 2025-11-10

Megosztás a következőn keresztül:

A Unity Catalog használata csövezésekkel

Követelmények

korlátozások

Használhatom együtt a Hive metaadattárat és a Unity Catalog-folyamatokat?

Inaktív táblák

Táblák írása a Unity Katalógusba egy adatfolyamatból

Adatok betöltése a Unity Catalog-adatfeldolgozó csővezetékbe

Batch-betöltés Unity-katalógustáblából

SQL

Python

A változások streamelése a Unity Catalog táblából

SQL

Python

Adatok betöltése a Hive metaadattárából

SQL

Python

Adatok betöltése az automatikus betöltőből

SQL

Python

Materializált nézetek megosztása

SELECT jogosultság megadása egy táblán

Kijelölés visszavonása egy táblában

Táblalétrehozási vagy materializált nézet létrehozási jogosultság biztosítása

Folyamathoz tartozó vonalasság megtekintése

Stream-táblázatban lévő adatok hozzáadása, módosítása vagy törlése

Adott azonosítójú rekordok törlése:

Adott azonosítójú rekordok frissítése:

Táblázatok közzététele sorszűrőkkel és oszlopmaszkokkal

Sorszűrők és oszlopmaszkok kezelése

Magatartás

Observability

Visszajelzés

További források