Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A Databricks javasolja a Lakeflow Spark Deklaratív folyamatok konfigurálását a Unity Catalog használatával. Az újonnan létrehozott folyamatok esetében a Unity Catalog használata az alapértelmezett.
A Unity-katalógussal konfigurált folyamatok az összes definiált materializált nézetet és streamtáblát közzéteszik a megadott katalógusban és sémában. A Unity Catalog-folyamatok más Unity Catalog-táblákból és kötetekből is olvashatók.
A Unity Catalog-folyamat által létrehozott táblák engedélyeinek kezeléséhez használja a GRANT és a REVOKE.
Megjegyzés:
Ez a cikk a pipelines jelenlegi alapértelmezett közzétételi módjának funkcióit ismerteti. A 2025. február 5. előtt létrehozott pipeline-ek a régi közzétételi módot és a LIVE virtuális sémát használhatják. Lásd: LIVE séma (régi változat).
Követelmények
Ha streamelési táblákat és materializált nézeteket szeretne létrehozni egy célsémában a Unity Catalogban, a következő engedélyekkel kell rendelkeznie a sémához és a szülőkatalógushoz:
-
USE CATALOGjogosultságok a célkatalógusban. - A célsémára
CREATE MATERIALIZED VIEWésUSE SCHEMAjogosultságokat kell biztosítani, ha a folyamat materializált nézeteket hoz létre. -
CREATE TABLEésUSE SCHEMAjogosultságok a célséma vonatkozásában, ha a csővezeték adatfolyam táblákat hoz létre. - Ha a folyamat új sémákat hoz létre,
USE CATALOGésCREATE SCHEMAjogosultságokkal kell rendelkeznie a célkatalógusban.
A Unity Catalog-kompatibilis folyamat futtatásának számítási követelményei:
- A számítási erőforrást szabványos hozzáférési móddal kell konfigurálni. A dedikált számítás nem támogatott. Lásd: Hozzáférési módok.
A pipeline-ok által a Unity Catalog használatával létrehozott táblák lekérdezéséhez szükséges számítási erőforrások (ideértve a streamelési táblákat és a materializált nézeteket) az alábbiak bármelyikét tartalmazhatják:
- SQL-raktárak
- Standard hozzáférési mód számítása a Databricks Runtime 13.3 LTS vagy újabb verzióján.
- Dedikált hozzáférési módú számítás, ha a részletes hozzáférés-vezérlés engedélyezve van a dedikált számításon (azaz a Databricks Runtime 15.4-et vagy újabb verzióját futtatja, és a kiszolgáló nélküli számítás engedélyezve van a munkaterületen). További információ: Részletes hozzáférés-vezérlés dedikált számításon.
- Dedikált hozzáférési mód számítása 13,3 LTS és 15.3 között, csak akkor, ha a tábla tulajdonosa futtatja a lekérdezést.
További számítási korlátozások érvényesek. Tekintse meg az alábbi szakaszt.
korlátozások
A Unity Catalog folyamatokkal való használatakor a következők a korlátozások:
- Alapértelmezés szerint csak a folyamat tulajdonosa és a munkaterület rendszergazdái tekinthetik meg az illesztőprogram-naplókat a Unity Catalog-kompatibilis folyamatot futtató számításból. Ha engedélyezni szeretné, hogy más felhasználók hozzáférjenek az illesztőprogram-naplókhoz, tekintse meg a A nem rendszergazdai felhasználók megtekinthetik az illesztőprogram-naplókat egy Unity Katalógus-kompatibilis folyamatból.
- A Hive metaadattárat használó meglévő folyamatok nem frissíthetők a Unity Catalog használatára. A Hive metaadattárba írt meglévő folyamat migrálásához létre kell hoznia egy új folyamatot, és újra kell betöltenie az adatokat az adatforrás(ok)ból. Lásd: Unity Catalog-folyamat létrehozása Hive-metaadattár-folyamat klónozásával.
- A Unity Catalog-kompatibilis folyamat nem hozható létre egy olyan metaadattárhoz csatolt munkaterületen, amelyet a Unity Catalog nyilvános előzetes verziója során hoztak létre. Tekintse meg a jogosultságöröklés frissítését.
- A JAR-ek nincsenek támogatva. Csak külső Python-kódtárak támogatottak. Lásd: Folyamatok Python-függőségeinek kezelése.
- A streamelési tábla sémáját módosító adatmanipulációs nyelvi (DML-) lekérdezések nem támogatottak.
- A folyamatokban létrehozott materializált nézet nem használható streamforrásként a folyamaton kívül, például egy másik folyamatban vagy egy alárendelt jegyzetfüzetben.
- A materializált nézetek és streaming táblák adatai a tartalmazó séma tárolási helyén vannak tárolva. Ha nincs megadva sématároló hely, a rendszer a táblákat a katalógus tárolási helyén tárolja. Ha a séma- és katalógustárolási helyek nincsenek megadva, a táblák a metaadattár gyökértárolójában lesznek tárolva.
- A Katalóguskezelő Előzmények lap nem jeleníti meg a materializált nézetek előzményeit.
- A
LOCATIONtulajdonság nem támogatott tábla definiálásakor. - A Unity Catalog-kompatibilis folyamatok nem tudnak közzétenni a Hive-metaadattárban.
- A Python UDF támogatása nyilvános előzetes verzióban.
Megjegyzés:
A materializált nézeteket támogató mögöttes fájlok tartalmazhatnak olyan felsőbb rétegbeli táblákból származó adatokat (beleértve a személyazonosításra alkalmas adatokat is), amelyek nem jelennek meg a materializált nézetdefinícióban. Ezeket az adatokat a rendszer automatikusan hozzáadja a mögöttes tárolóhoz, hogy támogassa a materializált nézetek növekményes frissítését.
Mivel a materializált nézet alapjául szolgáló fájlok a materializált nézet sémájának nem részét képező felsőbb rétegbeli táblákból származó adatok feltárását kockáztathatják, a Databricks azt javasolja, hogy ne ossza meg az alapul szolgáló tárolót a nem megbízható alsóbb rétegbeli felhasználókkal.
Tegyük fel például, hogy egy materializált nézetdefiníció tartalmaz egy COUNT(DISTINCT field_a) záradékot. Annak ellenére, hogy a materializált nézetdefiníció csak az összesített COUNT DISTINCT záradékot tartalmazza, a mögöttes fájlok tartalmazzák a field_atényleges értékeinek listáját.
Használhatom együtt a Hive metaadattárat és a Unity Catalog-folyamatokat?
A munkaterület tartalmazhat a Unity Catalogot és az örökölt Hive-metaadattárat használó folyamatokat. Egyetlen folyamat azonban nem tud írni a Hive metaadattárba és a Unity-katalógusba. A Hive metaadattárba írt meglévő folyamatok nem frissíthetők a Unity Catalog használatára. A Hive metaadattárba írt meglévő folyamat migrálásához létre kell hoznia egy új folyamatot, és újra kell betöltenie az adatokat az adatforrás(ok)ból. Lásd: Unity Catalog-folyamat létrehozása Hive-metaadattár-folyamat klónozásával.
A Unity-katalógust nem használó meglévő folyamatokra nincs hatással a Unity Katalógussal konfigurált új folyamatok létrehozása. Ezek a folyamatok továbbra is megőrzik az adatokat a Hive metaadattárban a konfigurált tárolási hely használatával.
Ha a dokumentum másként nem rendelkezik, a Unity-katalógust használó folyamatok minden meglévő adatforrást és folyamatfunkciót támogatnak. A Python- és SQL-interfészek egyaránt támogatottak a Unity Catalogot használó folyamatokkal.
Inaktív táblák
Ha egy folyamat úgy van konfigurálva, hogy megőrizze az adatokat a Unity Catalogban, a folyamat kezeli a tábla életciklusát és engedélyeit.
A táblák inaktívvá válhatnak, ha definíciójukat eltávolítják egy folyamatból. A következő folyamatfrissítés inaktívként jelöli meg a megfelelő materializált nézetet vagy streamelési táblabejegyzést.
Ha módosítja a folyamat alapértelmezett katalógusát vagy sémáját, és nem használ teljes táblaneveket a folyamat forráskódjában, a következő folyamatfuttatás létrehozza a materializált nézetet vagy streamelési táblát az új katalógusban vagy sémában, és a régi helyen lévő korábbi materializált nézet vagy streamelő tábla inaktívként van megjelölve.
Az inaktív táblákat továbbra is lekérdezheti, de a folyamat már nem frissíti őket. A materializált nézetek vagy streamelési táblák törléséhez explicit módon DROP a táblát. A folyamat törlésekor az inaktív táblák törlődnek.
- A parancs használatával 7 napon belül helyreállíthatja az
UNDROPelvetett táblákat. - Ha meg szeretné őrizni az örökölt viselkedést, amikor a materializált nézet vagy a streamelési tábla bejegyzése el lesz távolítva a Unity Katalógusból a következő folyamatfrissítéskor, állítsa be a folyamatkonfigurációs
"pipelines.dropInactiveTables": "true". A rendszer egy ideig megőrzi a tényleges adatokat, hogy azok helyreállíthatók legyenek, ha véletlenül törölték őket. Az adatok 7 napon belül helyreállíthatók úgy, hogy a materializált nézetet vagy a streamelési táblát újra hozzáadják a folyamatdefinícióhoz.
A folyamat teljes törlése (szemben a tábladefiníció eltávolításával a folyamat forrásából) szintén törli a folyamatban definiált összes táblát. A felhasználói felület kéri, hogy erősítse meg egy pipeline törlését.
Táblák írása a Unity Katalógusba egy adatfolyamatból
Ha a táblákat a Unity Catalogba szeretné írni, konfigurálnia kell az adatfolyamot, hogy az a munkaterületen keresztül működjön. Amikor létrehoz egy folyamatot, válassza ki a Unity CatalogTárolási lehetőségek között, válasszon katalógust a Katalógus legördülő menüből, és válasszon meglévő sémát, vagy adja meg egy új séma nevét a Célséma legördülő menüben. A Unity Catalog katalógusairól további információért lásd: Mik azok a katalógusok az Azure Databricksben?. A Unity Catalog sémáiról szóló információkért lásd a Mik azok a sémák az Azure Databricksben?.
Adatok betöltése a Unity Catalog-adatfeldolgozó csővezetékbe
A Unity Catalog használatára konfigurált folyamat a következő adatokból tud adatokat olvasni:
- A Unity Catalog által felügyelt és külső táblák, nézetek, materializált nézetek és folyamatos táblák.
- Hive metaadattártáblák és nézetek.
- Automatikus betöltő a
read_files()függvényt használva a Unity Catalog külső helyszíneiről való olvasáshoz. - Apache Kafka és Amazon Kinesis.
Az alábbiakban példákat láthat a Unity Catalog és a Hive metaadattár tábláinak olvasására.
Batch-betöltés Unity-katalógustáblából
SQL
CREATE OR REFRESH MATERIALIZED VIEW
table_name
AS SELECT
*
FROM
my_catalog.my_schema.table1;
Python
@dp.materialized_view
def table_name():
return spark.read.table("my_catalog.my_schema.table")
A változások streamelése a Unity Catalog táblából
SQL
CREATE OR REFRESH STREAMING TABLE
table_name
AS SELECT
*
FROM
STREAM(my_catalog.my_schema.table1);
Python
@dp.table
def table_name():
return spark.readStream.table("my_catalog.my_schema.table")
Adatok betöltése a Hive metaadattárából
A Unity-katalógust használó folyamatok a Hive metaadattártábláiból olvashatnak adatokat a hive_metastore katalógus használatával:
SQL
CREATE OR REFRESH MATERIALIZED VIEW
table_name
AS SELECT
*
FROM
hive_metastore.some_schema.table;
Python
@dp.materialized_view
def table3():
return spark.read.table("hive_metastore.some_schema.table")
Adatok betöltése az automatikus betöltőből
SQL
CREATE OR REFRESH STREAMING TABLE table_name
AS SELECT *
FROM STREAM read_files(
"/path/to/uc/external/location",
format => "json"
)
Python
@dp.table(table_properties={"quality": "bronze"})
def table_name():
return (
spark.readStream.format("cloudFiles")
.option("cloudFiles.format", "json")
.load(f"{path_to_uc_external_location}")
)
Materializált nézetek megosztása
Alapértelmezés szerint csak a folyamat tulajdonosa rendelkezik engedéllyel a folyamat által létrehozott adathalmazok lekérdezésére. Lehetővé teheti más felhasználóknak, hogy GRANT utasítások használatával lekérdezhessenek egy táblát, és REVOKE utasítások használatával visszavonhatják a lekérdezési hozzáférést. A Unity Catalog jogosultságairól további információt a Jogosultságok kezelése a Unity Katalógusbancímű témakörben talál.
SELECT jogosultság megadása egy táblán
GRANT SELECT ON TABLE
my_catalog.my_schema.table_name
TO
`user@databricks.com`
Kijelölés visszavonása egy táblában
REVOKE SELECT ON TABLE
my_catalog.my_schema.table_name
FROM
`user@databricks.com`
Táblalétrehozási vagy materializált nézet létrehozási jogosultság biztosítása
GRANT CREATE { MATERIALIZED VIEW | TABLE } ON SCHEMA
my_catalog.my_schema
TO
{ principal | user }
Folyamathoz tartozó vonalasság megtekintése
A folyamatokban definiált táblákhoz tartozó vonalasság a Catalog Explorerben látható. A Katalóguskezelő termékcsalád felhasználói felülete megjeleníti a materializált nézetekhez vagy streamelőtáblákhoz tartozó felső és alsóbb rétegbeli táblákat egy Unity Catalog-kompatibilis folyamatban. Ha többet szeretne megtudni a Unity Catalog adatok származásáról, olvassa el az adatsorok megtekintése a Unity Catalog használatával című témakört.
A Unity Catalog-kompatibilis folyamatok materializált nézeteihez vagy streamelési tábláihoz a Catalog Explorer termékoldali felhasználói felülete is hivatkozni fog a materializált nézetet vagy streamelési táblát előállító folyamatra, ha a folyamat elérhető az aktuális munkaterületről.
Stream-táblázatban lévő adatok hozzáadása, módosítása vagy törlése
Az adatmanipulációs nyelvi (DML) utasítások , például beszúrási, frissítési, törlési és egyesítési utasítások használatával módosíthatja a Unity Catalogban közzétett streamtáblákat. A DML-lekérdezések streamelési táblákon történő támogatása olyan használati eseteket tesz lehetővé, mint például a táblák frissítése az általános adatvédelmi rendeletnek (GDPR) való megfelelés érdekében.
Megjegyzés:
- A streamelési tábla táblázatsémát módosító DML-utasítások nem támogatottak. Győződjön meg arról, hogy a DML-utasítások nem próbálják továbbfejleszteni a táblázatsémát.
- A streamelési táblát frissítő DML-utasítások csak megosztott Unity Catalog-fürtön vagy SQL-raktárban futtathatók a Databricks Runtime 13.3 LTS és újabb verziók használatával.
- Mivel a streamelés csak hozzáfűző adatforrásokat igényel, ha a feldolgozáshoz egy forrásstreamelési táblából kell streamelni módosításokkal (például DML-utasításokkal), állítsa be a skipChangeCommits jelölőt a forrásstreamelési tábla olvasásakor. Ha
skipChangeCommitsvan beállítva, a rendszer figyelmen kívül hagyja a forrástábla rekordjait törlő vagy módosító tranzakciókat. Ha a feldolgozáshoz nincs szükség streamelési táblára, céltáblaként használhat materializált nézetet, amelyre nem vonatkozik a csak hozzáfűzési korlátozás.
Az alábbiakban olyan DML-utasításokat mutatunk be, amelyek módosítják a streamelési táblák rekordjait.
Adott azonosítójú rekordok törlése:
DELETE FROM my_streaming_table WHERE id = 123;
Adott azonosítójú rekordok frissítése:
UPDATE my_streaming_table SET name = 'Jane Doe' WHERE id = 123;
Táblázatok közzététele sorszűrőkkel és oszlopmaszkokkal
Sorszűrők lehetővé teszik egy szűrőként alkalmazható függvény megadását, amikor egy táblavizsgálat sorokat olvas be. Ezek a szűrők biztosítják, hogy a későbbi lekérdezések csak olyan sorokat adjanak vissza, amelyek esetében a szűrő predikátum értéke igaz.
Az oszlopmaszkok lehetővé teszik az oszlopok értékeinek maszkolását, amikor egy táblázat beolvassa a sorokat. Az oszlop jövőbeli lekérdezései a kiértékelt függvény eredményét adják vissza az oszlop eredeti értéke helyett. További információ a sorszűrők és oszlopmaszkok használatáról: Sorszűrők és oszlopmaszkok.
Sorszűrők és oszlopmaszkok kezelése
A materializált nézetek és streamtáblák sorszűrőit és oszlopmaszkjait a CREATE OR REFRESH utasítással kell hozzáadni, frissíteni vagy elvetni.
A sorszűrőkkel és oszlopmaszkokkal rendelkező táblák meghatározásának részletes szintaxisát lásd a Pipeline SQL nyelvi referencia és a Lakeflow Spark deklaratív csővezetékek Python nyelvi referencia dokumentációban.
Magatartás
A sorszűrők vagy oszlopmaszkok folyamaton belüli használatakor az alábbiak a fontos részletek:
-
Frissítés tulajdonosként: Amikor egy folyamatfrissítés materializált nézetet vagy streamelési táblát frissít, a sorszűrő és az oszlopmaszk-függvények a folyamat tulajdonosi jogosultságaival futnak. Ez azt jelenti, hogy a táblafrissítés a folyamatot létrehozó felhasználó biztonsági környezetét használja. A felhasználói környezetet ellenőrző függvények (például
CURRENT_USERésIS_MEMBER) kiértékelése a folyamat tulajdonosának felhasználói környezetével történik. -
Lekérdezés: Materializált nézet vagy streamelési tábla lekérdezésekor a felhasználói környezetet ellenőrző függvények (például
CURRENT_USERésIS_MEMBER) kiértékelése a meghívó felhasználói környezetével történik. Ez a megközelítés a felhasználóspecifikus adatbiztonságot és hozzáférés-vezérlést kényszeríti ki az aktuális felhasználó kontextusa alapján. - Amikor sorszűrőket és oszlopmaszkokat tartalmazó forrástáblákon hoz létre materializált nézeteket, a materializált nézet frissítése mindig teljes frissítés. A teljes frissítés a forrásban elérhető összes adatot a legújabb definíciókkal dolgozza fel újra. Ez a folyamat ellenőrzi, hogy a forrástáblák biztonsági szabályzatai kiértékelése és alkalmazása a legup-tonaprakész adatokkal és meghatározásokkal történik-e.
Observability
Az DESCRIBE EXTENDED, a INFORMATION_SCHEMAvagy a Katalóguskezelő használatával vizsgálja meg azokat a meglévő sorszűrőket és oszlopmaszkokat, amelyek egy adott materializált nézetre vagy streamelési táblára vonatkoznak. Ez a funkció lehetővé teszi a felhasználók számára az adathozzáférési és védelmi intézkedések naplózását és felülvizsgálatát a materializált nézeteken és streamelési táblákon.