Mi az a Delta-megosztás?

Ez a lap bemutatja a Delta Sharing az Azure Databricksban, a biztonságos adatmegosztási platformot, amely lehetővé teszi az adatok és mesterséges intelligencia eszközök megosztását az Azure Databricks alkalmazással a szervezeten kívüli felhasználókkal, függetlenül attól, hogy használnak-e Azure Databricksot. A Delta Sharing a Databricks Marketplace alapja is, amely egy nyílt fórum az adattermékek cseréjéhez, valamint a Clean Rooms, egy biztonságos és adatvédelemmel foglalkozó környezet, ahol több fél is együttműködhet a bizalmas vállalati adatokon.

A Delta-megosztás nyílt forráskódú projektként is elérhető, amellyel más platformokról is megoszthatja a Delta-táblákat.

Hogyan működik a Delta Sharing?

A Delta Sharing egy nyílt protokoll , amelyet a Databricks fejlesztett ki a más szervezetekkel való biztonságos adatmegosztáshoz, függetlenül attól, hogy milyen számítási platformokat használnak.

Többféleképpen oszthat meg adatokat a Delta Sharing használatával:

  1. A Databricks-to-Databricks megosztóprotokoll, amellyel adatokat és AI-objektumokat oszthat meg a Unity Catalog-kompatibilis munkaterületről olyan felhasználókkal, akik szintén hozzáférnek egy Unity Catalog-kompatibilis Databricks-munkaterülethez.

    Ez a módszer a Azure Databricks beépített Delta Sharing-kiszolgálót használja. Olyan Delta-megosztási funkciókat támogat, amelyeket más protokollok nem támogatnak, például a jegyzetfüzetek megosztását, a Unity Catalog kötetmegosztását, a Unity Catalog AI-modell megosztását, a Unity Catalog adatszabályozását, a naplózást és a használatkövetést mind a szolgáltatók, mind a címzettek számára. A Unity Catalog integrációja leegyszerűsíti a szolgáltatók és a címzettek beállítását és szabályozását, és javítja a teljesítményt.

    Lásd : Adatok megosztása a Delta Sharing Databricks-to-Databricks protokoll használatával (szolgáltatók számára).

  2. A Databricks nyílt megosztási protokollja lehetővé teszi a Unity Catalog-kompatibilis Databricks-munkaterületen kezelt táblázatos adatok megosztását bármely számítási platform felhasználóival.

    Ez a módszer a Azure Databricks beépített Delta Sharing-kiszolgálót használja, amely akkor hasznos, ha a Unity Catalog használatával kezeli az adatokat, és meg szeretné osztani azokat olyan felhasználókkal, akik nem használják a Databrickset, vagy nem rendelkeznek hozzáféréssel a Unity Catalog-kompatibilis Databricks-munkaterületekhez. A Unity Catalog szolgáltatói oldallal való integrációja leegyszerűsíti a szolgáltatók beállítását és szabályozását.

    Lásd: Adatok megosztása a Delta Sharing nyílt megosztási protokoll használatával (szolgáltatók számára).

  3. A nyílt forráskódú Delta Sharing szerver ügyfél által felügyelt implementációja, amely lehetővé teszi, hogy bármilyen platformról bármely más platformra megoszthassunk, függetlenül attól, hogy az Databricks vagy sem.

    A Azure Databricks dokumentációja nem tartalmazza a saját Delta Sharing-kiszolgáló beállítására vonatkozó utasításokat. Lásd: github.com/delta-io/delta-sharing.

  4. A Azure Databricks SAP Business Data Cloud (BDC) összekötője, amely lehetővé teszi az adatok megosztását a Unity catalog-kompatibilis munkaterület és egy SAP BDC-fiók között.

    Ez a megközelítés az SAP BDC-összekötőt használja, amely a Delta Sharingt használja az SAP BDC-adattermékekhez való élő, másolás nélküli hozzáféréshez.

    Lásd: Mi az SAP BDC-összekötő az Azure Databricks?

Delta Sharing adatelérési architektúra.

megosztások, szolgáltatók és címzettek

Az Azure Databricks deltamegosztásának alapvető fogalmai a shares, providers és recipients.

Mi az a megosztás?

A Delta Sharingben a megosztás olyan táblák és táblapartíciók írásvédett gyűjteménye, amelyeket a szolgáltató meg szeretne osztani egy vagy több címzettel. Ha a címzett Unity Catalog-kompatibilis Databricks-munkaterületet használ, jegyzetfüzetfájlokat, nézeteket (beleértve a sor- és oszlopszintű hozzáférést korlátozó dinamikus nézeteket), a Unity Catalog-köteteket és a Unity Catalog-modelleket is belefoglalhatja egy megosztásba.

A megosztásokból bármikor hozzáadhat vagy eltávolíthat táblákat, streamelő táblákat, felügyelt Iceberg-táblákat, nézeteket, materializált nézeteket, köteteket, modelleket és jegyzetfüzetfájlokat, és bármikor hozzárendelheti vagy visszavonhatja az adatátvevők hozzáférését egy megosztáshoz.

A Unity Catalog-kompatibilis Azure Databricks munkaterületen a megosztás a Unity Catalogban regisztrált biztonságos objektum. Ha eltávolít egy megosztást a Unity Catalog-metaadattárból, a megosztás minden címzettje elveszíti a hozzáférés képességét.

Lásd: Megosztások létrehozása és kezelése a Delta-megosztáshoz.

Mi az a szolgáltató?

A szolgáltató olyan entitás, amely adatokat oszt meg egy címzettel. Ha Ön szolgáltató, és ki szeretné használni a beépített Databricks Delta Sharing-kiszolgálót, és a Unity Catalog használatával szeretné kezelni a megosztásokat és a címzetteket, legalább egy olyan Azure Databricks munkaterületre van szüksége, amely engedélyezve van a Unity Cataloghoz. Nem kell az összes meglévő munkaterületet a Unity Catalogba migrálnia. Egyszerűen létrehozhat egy új Unity Catalog-kompatibilis munkaterületet a Delta Sharing igényeinek megfelelően.

Ha a címzett egy Unity Catalog-kompatibilis Databricks-munkaterületen található, a szolgáltató egyben egy Unity Catalog biztonságos objektum is, amely a szolgáltató szervezetét képviseli, és a szervezetet egy megosztáskészlettel társítja.

Mi az a címzett?

A címzett egy olyan entitás, amely megosztásokat fogad egy szolgáltatótól. A Unity Catalogban a megosztás egy biztonságos objektum, amely egy szervezetet jelöl, és egy hitelesítő vagy biztonságos megosztási azonosítóval társítja, amely lehetővé teszi a szervezet számára egy vagy több megosztás elérését.

Adatszolgáltatóként (megosztóként) több címzettet is meghatározhat egy adott Unity Catalog-metaadattárhoz, de ha több metaadattárból szeretne adatokat megosztani egy adott felhasználóval vagy felhasználói csoporttal, minden metaadattárhoz külön kell meghatároznia a címzettet. A címzettek több megosztáshoz is hozzáférhetnek.

Ha egy szolgáltató töröl egy címzettet a Unity Catalog metaadattárából, az adott címzett elveszíti a hozzáférést az összes olyan megosztáshoz, amelyhez korábban hozzáférhetett.

Lásd: Adatátvevők létrehozása és kezelése a Delta-megosztáshoz (Databricks-to-Databricks-megosztás).

Nyílt megosztás versus Databricks közötti megosztás

Ez a szakasz a Unity Cataloghoz engedélyezett Databricks-munkaterületről való megosztás két protokollt ismerteti.

Note

Ez a szakasz feltételezi, hogy a szolgáltató unitykatalógus-kompatibilis Azure Databricks munkaterületen található. Ha szeretne többet megtudni arról, hogyan állíthat be egy nyílt forráskódú Delta Sharing-kiszolgálót, hogy megossza az adatokat nem Databricks-platformról vagy nem Unity Catalog-munkaterületről, tekintse meg a github.com/delta-io/delta-sharing oldalt.

Az, hogy egy szolgáltató hogyan használja a Delta-megosztást az Azure Databricksben, attól függ, kivel osztja meg az adatokat.

  • Nyílt megosztás lehetővé teszi az adatok megosztását bármely felhasználóval, függetlenül attól, hogy hozzáférnek-e az Azure Databrickshez.
  • Databricks-to-Databricks megosztás lehetővé teszi az adatok megosztását Azure Databricks felhasználókkal, akiknek a munkaterülete egy, az Önétől eltérő Unity Catalog-metaadattárhoz van csatolva. A Databricks-to-Databricks támogatja a jegyzetfüzetek, kötetek és modellek megosztását is, amelyek nem érhetők el a nyílt megosztásban.

Mi az „nyitott Delta Sharing”?

Ha a Azure Databricks-munkaterületen kívüli felhasználókkal szeretne adatokat megosztani, függetlenül attól, hogy a Databricks-et használják-e, az adatok biztonságos megosztásához használhatja a deltamegosztást. Adatszolgáltatóként a megosztás címzettjével történő hitelesítést az alábbi módszerek valamelyikével kezelheti:

  • Létrehoz egy hosszú élettartamú tulajdonosi jogkivonatot, és biztonságosan megosztja azt a címzettel. A tokent használják a hitelesítéshez, és olvasási hozzáférést kapnak azokhoz a táblákhoz, amelyekhez a megosztásban hozzáférést adott nekik.
  • Open ID Connect (OIDC) összevonást használ, amely rövid élettartamú Databricks OAuth-jogkivonatokat ad a címzettnek, cserébe olyan JWT-jogkivonatokért, amelyeket a címzett identitásszolgáltatója továbbít a Databricksnek.

A címzettek számos számítástechnikai eszköz és platform használatával férhetnek hozzá a megosztott adatokhoz, például:

  • Azure Databricks
  • Apache Spark
  • Pandas
  • Power BI

A Delta Sharing-összekötők teljes listáját és a használatukkal kapcsolatos információkat a Delta Sharing dokumentációjában találja.

Lásd még: Adatok megosztása a Delta Sharing nyílt megosztási protokoll használatával (szolgáltatók számára).>

Mi az a Databricks-to-Databricks deltamegosztás?

Ha olyan felhasználókkal szeretne adatokat megosztani, akik rendelkeznek a Unity Cataloghoz engedélyezett Databricks-munkaterülettel, használhatja a Databricks-to-Databricks deltamegosztást. A Databricks-to-Databricks megosztással adatokat oszthat meg más Databricks-fiókok felhasználóival, akár AWS-en, Azure vagy GCP-n. Emellett nagyszerű módja az adatok biztonságos megosztásának a saját Databricks-fiókjában található Unity Catalog-metaadattárak között. Vegye figyelembe, hogy nem szükséges a Delta Sharing használatával megosztani az adatokat az ugyanazon Unity Catalog-metaadattárhoz csatolt munkaterületek között, mert ebben a forgatókönyvben a Unity Catalog használatával kezelheti az adatokhoz való hozzáférést a munkaterületeken.

A Databricks–Databricks megosztás egyik előnye, hogy a megosztás címzettjének nincs szüksége jogkivonatra a megosztás eléréséhez, és a szolgáltatónak nem kell kezelnie a címzett jogkivonatait. A megosztási kapcsolat biztonságát – beleértve az összes identitás-ellenőrzést, hitelesítést és naplózást – teljes egészében a Delta Sharing és a Databricks platform kezeli. Egy másik előny a Databricks-jegyzetfüzetfájlok, a Unity Catalog-kötetek és a Unity Catalog-modellek megosztása.

Lásd még: Adatok megosztása a Delta Sharing Databricks-to-Databricks protokoll használatával (szolgáltatók számára).

Hogyan állíthatják be a szolgáltatói rendszergazdák a Delta Sharingt?

Ez a szakasz áttekintést nyújt arról, hogy a szolgáltatók hogyan engedélyezhetik a Delta-megosztást, és hogyan kezdeményezhetnek megosztást unitykatalógus-kompatibilis Azure Databricks munkaterületről. A nyílt forráskódú deltamegosztásról lásd: github.com/delta-io/delta-sharing.

A Databricks-to-Databricks megosztás az ugyanezen fiókban található Unity Catalog metastore-ok között mindig engedélyezve van. Ha Ön olyan szolgáltató, amely engedélyezni szeretné a Delta Sharing számára az adatok más fiókokban vagy nem Databricks-ügyfeleken lévő Databricks-munkaterületekkel való megosztását, egy Azure Databricks fiókadminisztrátor vagy metaadattár-rendszergazda a következő telepítési lépéseket hajtja végre (magas szinten):

  1. Engedélyezze a Delta-megosztást a megosztani kívánt adatokat kezelő Unity Catalog-metaadattárhoz.

    Note

    Nem kell engedélyeznie a Delta-megosztást a metaadattárban, ha a Delta Sharing használatával csak a fiókjában lévő más Unity Catalog-metaadattárak felhasználóival kíván adatokat megosztani. A metaadattár-metaadattár-megosztás egyetlen Azure Databricks fiókon belül alapértelmezés szerint engedélyezve van.

    Lásd: Delta megosztás engedélyezése a metatárban.

  2. Hozzon létre egy megosztást, amely tartalmazza a Unity Catalog metaadattárában regisztrált adategységeket.

    Ha nem Databricks-címzettel (más néven nyílt megosztással) oszt meg, akkor Delta formátumú táblákat is felvehet. Ha a Databricks-to-Databricks megosztást tervezi használni, nézeteket, Unity Catalog-köteteket, Unity Catalog-modelleket és jegyzetfüzetfájlokat is hozzáadhat egy megosztáshoz.

    Lásd: Megosztások létrehozása és kezelése a Delta-megosztáshoz.

  3. Hozzon létre egy címzettet.

    Lásd: Adatátvevők létrehozása és kezelése a Delta-megosztáshoz (Databricks-to-Databricks-megosztás).

    Ha a címzett nem Databricks-felhasználó, vagy nem rendelkezik hozzáféréssel a Unity Cataloghoz engedélyezett Databricks-munkaterülethez, akkor nyílt megosztást kell használnia. Létrehozhat hozzáférési jogkivonaton alapuló hitelesítő adatokat az adott címzetthez, vagy használhatja az OIDC federációt.

    Ha a címzett hozzáféréssel rendelkezik a Unity Cataloghoz engedélyezett Databricks-munkaterülethez, használhatja a Databricks–Databricks megosztást, és nincs szükség jogkivonatalapú hitelesítő adatokra. Egy megosztási azonosítót kér a címzetttől, és használja a biztonságos kapcsolat létrehozásához.

    Tip

    Használja magát teszt címzettként a beállítási folyamat kipróbálásához.

  4. Adjon hozzáférést a címzettnek egy vagy több megosztáshoz.

    Lásd: Delta Sharing-adatmegosztásokhoz való hozzáférés kezelése (szolgáltatók számára).

    Note

    Ezt a lépést egy nem rendszergazdai felhasználó is végrehajthatja a USE SHARE, USE RECIPIENT és SET SHARE PERMISSION jogosultságokkal. Lásd a Unity Catalog jogosultságok referencia részt.

  5. Küldje el a címzettnek a megosztáshoz való csatlakozáshoz szükséges információkat (csak nyílt megosztás esetén).

    Ha tulajdonosi jogkivonatokkal szeretné megnyitni a megosztást, egy biztonságos csatornával küldjön egy aktiválási hivatkozást a címzettnek, amely lehetővé teszi számukra a jogkivonat-alapú hitelesítő adatok letöltését. Lásd : A címzett kapcsolati adatainak elküldése.

    Az OIDC-jogkivonat-összevonással történő nyílt megosztáshoz küldje el a létrehozott portál URL-címét. Lásd: Open ID Connect (OIDC) federáció használata a Delta-megosztások (nyílt megosztás) hitelesítésének engedélyezésére.

    A Databricks–Databricks-megosztás esetében a megosztásban szereplő adatok azonnal elérhetővé válnak a címzett Databricks-munkaterületén, amint hozzáférést ad nekik a megosztáshoz.

A címzett mostantól hozzáférhet a megosztott adatokhoz.

Hogyan férnek hozzá a címzettek a megosztott adatokhoz?

A címzettek csak olvasható formátumban férnek hozzá a megosztott adatokhoz. A megosztott jegyzetfüzetfájlok írásvédettek, de klónozásuk, majd módosításuk és futtatásuk a címzett munkaterületen ugyanúgy történik, mint bármely más jegyzetfüzetben.

A biztonságos hozzáférés a megosztási modelltől függ:

  • A nyílt megosztás (a címzett nem rendelkezik a Unity Cataloghoz engedélyezett Databricks-munkaterületgel) két lehetőség közül választhat:

    • A bearer token folyamatban a címzett megadja a hitelesítő adatokat minden alkalommal, amikor az általuk választott eszközben, például Apache Spark, pandas, Power BI, Databricks, és mások használatával fér hozzá az adatokhoz. Lásd: Adatok olvasása a Delta Sharing által megosztott nyílt megosztásban hordozó tokenekkel.
    • Az OIDC tokenegyesítési folyamat során a címzett vagy a címzett ügyfélalkalmazása saját identitásszolgáltatóján keresztül fér hozzá az adatokhoz. Lásd: Delta Sharing részesedések fogadása Open ID Connect (OIDC) federáció használatával felhasználó-gép forgalomban (nyílt megosztás) és Delta Sharing részesedések fogadása Python kliens segítségével és Open ID Connect (OIDC) federáció használatával gép-gép forgalomban (nyílt megosztás).
  • Databricks-to-Databricks (ha a címzett munkaterülete engedélyezve van a Unity Catalog használatára): A címzett a Databricks segítségével fér hozzá az adatokhoz. A Unity Catalog használatával hozzáférést biztosíthatnak és megtagadhatnak a Databricks-fiókjuk többi felhasználójához. Tekintse meg Az adatok olvasása Databricks-to-Databricks Delta Sharing használatával (címzettek számára).

Amikor az adatszolgáltató frissíti az adattáblákat vagy köteteket a saját Databricks-fiókjában, a frissítések közel valós időben jelennek meg a címzett rendszerében. Ha szeretné megtudni, hogyan érheti el az Önnel a Delta Sharing használatával megosztott adatokat, olvassa el a Delta Sharing használatával (a címzettek számára) megosztott Adatok elérése című témakört.

Hogyan követheti nyomon, hogy ki oszt meg és fér hozzá a megosztott adatokhoz?

A Unity catalog-kompatibilis Azure Databricks-munkaterületek adatszolgáltatói Azure Databricks naplózással és rendszertáblákkal figyelhetik a megosztások és címzettek létrehozását és módosítását, valamint figyelhetik a megosztások címzettjeinek tevékenységeit. Lásd: Adatmegosztás naplózása és monitorozása.

A Databricks-munkaterületeken megosztott adatokat használó adat címzettjei a Databricks naplózási és rendszertáblái segítségével megismerhetik, hogy ki fér hozzá az adatokhoz. Lásd: Adatmegosztás naplózása és monitorozása.

Kötetek megosztása

A köteteket a Databricks-to-Databricks megosztási folyamat segítségével oszthatja meg. Lásd: Kötetek hozzáadása egy megosztáshoz (szolgáltatóknak) és a Databricks-to-Databricks Delta Sharing segítségével megosztott adatok olvasása (címzettek számára).

Modellek megosztása

Modelleket a Databricks-to-Databricks megosztási folyamattal oszthat meg. Lásd: Modellek hozzáadása megosztáshoz (szolgáltatók számára) és Databricks-to-Databricks Delta Sharing használatával megosztott adatok olvasása (címzettek esetén).

Jegyzetfüzetek megosztása

A Delta Sharing segítségével megoszthat jegyzetfüzetfájlokat a Databricks közötti megosztási folyamat használatával. Lásd: Jegyzetfüzetfájlok hozzáadása megosztáshoz (szolgáltatóknak) és megosztott jegyzetfüzetek olvasása (címzettek számára).

Hozzáférés korlátozása a sor- és oszlopszinten a nézetek megosztásakor

Olyan dinamikus nézeteket oszthat meg, amelyek bizonyos táblaadatokhoz való hozzáférést a címzett tulajdonságai alapján korlátozzák. Lásd: Dinamikus nézetek hozzáadása megosztáshoz sorok és oszlopok szűréséhez.

Delta-megosztás és streamelés

A Delta Sharing támogatja az Apache Spark strukturált streamelését. A szolgáltató megoszthat egy táblát előzményekkel vagy streamelési táblázatokkal, hogy a címzett strukturált streamforrásként használhassa, és a megosztott adatokat növekményesen, alacsony késéssel dolgozza fel. A címzettek Delta Lake időutazási lekérdezéseket is végrehajthatnak az előzményekkel megosztott táblákon.

Ha szeretné megtudni, hogyan oszthat meg táblákat előzményekkel, olvassa el a Táblák hozzáadása megosztáshoz című témakört. Ha meg szeretné tudni, hogyan használhat megosztott táblákat streamforrásként, olvassa el a Táblák lekérdezése apache Spark strukturált streameléssel (a Databricks-to-Databricks-megosztás címzettjei számára) vagy megosztott táblák elérése a Spark Strukturált streamelés használatával (a nyílt megosztási adatok címzettjei számára).

A streamelési táblák megosztásának módjáról további információt a Streamelőtáblák hozzáadása megosztáshoz című témakörben talál.

Lásd még a strukturált streamelési fogalmakat.

Delta Lake-funkciók támogatási mátrixa

A Delta Sharing a delta Lake legtöbb funkcióját támogatja tábla megosztásakor. Ez a támogatási mátrix a következő listákat tartalmazza:

  • A Databricks Runtime, a nyílt forráskódú Delta Sharing Spark-összekötő vagy a nyílt forráskódú Delta Sharing Python összekötő meghatározott verzióit igénylő Delta-funkciók.
  • Részben támogatott funkciók.
Feature Provider Databricks címzett Nyílt forráskódú címzett
Törlési vektorok
  • A táblák megosztása ezzel a funkcióval nyilvános előzetes verzióban érhető el.
  • A táblákat meg kell osztani a történelemmel.
  • Databricks Runtime 14.1+ kötegelt lekérdezésekhez
  • Databricks Runtime 14.2+ CDF-hez és streamelési lekérdezésekhez
  • Delta Sharing Spark-összekötő 3.1+
  • Delta Sharing Python-összekötő 1.1.0+
  • Power BI v2.132.908.0+
Oszlopok leképezése
  • A táblák megosztása ezzel a funkcióval nyilvános előzetes verzióban érhető el.
  • A táblákat meg kell osztani a történelemmel.
  • Databricks Runtime 14.1+ kötegelt lekérdezésekhez
  • Databricks Runtime 14.2+ CDF-hez és streamelési lekérdezésekhez
  • Delta Sharing Spark-összekötő 3.1+
  • Korlátozásokkal támogatott a Delta Sharing Python-összekötőben
  • Power BI v2.132.908.0+
Egységes formátum
  • A táblák megosztása ezzel a funkcióval nyilvános előzetes verzióban érhető el.
  • A táblákat meg kell osztani a történelemmel.
  • Databricks Runtime 14.1+ kötegelt lekérdezésekhez
  • Databricks Runtime 14.2+ CDF-hez és streamelési lekérdezésekhez
  • Delta Sharing Spark-összekötő 3.1+
  • Delta Sharing Python-összekötő 1.1.0+
  • Power BI v2.132.908.0+
V2 ellenőrzőpont Korlátozásokkal támogatott Korlátozásokkal támogatott Korlátozásokkal támogatott
TimestampNTZ Supported Databricks Runtime 14.1+ verzió Delta Sharing Spark-összekötő 3.3+
Folyékony fürtözés Korlátozásokkal támogatott Korlátozásokkal támogatott Korlátozásokkal támogatott

Delta-megosztás – gyakori kérdések

A Delta-megosztással kapcsolatos gyakori kérdések az alábbiak.

Szükségem van a Unity Katalógusra a Delta Sharing használatához?

Nem, nincs szüksége a Unity Katalógusra a megosztáshoz (szolgáltatóként) vagy a megosztott adatok (címzettként) használatához. A Unity Catalog azonban olyan előnyöket biztosít, mint a nem táblázatos és AI-eszközök megosztásának támogatása, a beépített szabályozás, az egyszerűség és a lekérdezési teljesítmény.

A szolgáltatók kétféleképpen oszthatnak meg adatokat:

  • Helyezze a megosztani kívánt objektumokat a Unity Catalog felügyelete alá, és ossza meg őket a beépített Azure Databricks Delta Sharing-kiszolgálóval.

    Nem kell minden eszközt áttelepítenie a Unity Catalogba. Csak egy Azure Databricks munkaterületre van szükség, amely engedélyezve van a Unity Katalógus számára a megosztani kívánt objektumok kezeléséhez. Egyes fiókokban az új munkaterületek automatikusan engedélyezve vannak a Unity Cataloghoz. Lásd : A Unity-katalógus automatikus engedélyezése.

  • Implementálja a open Delta Sharing-kiszolgálót az adatok megosztásához, anélkül, hogy feltétlenül a Azure Databricks-fiókját használaná.

A címzettek kétféleképpen használhatják fel az adatokat:

  • Databricks-munkaterület nélkül. Használjon nyílt forráskód Delta Sharing-összekötőket, amelyek számos adatplatformhoz érhetők el, például Power BI, pandas és nyílt forráskód Apache Sparkhoz. Lásd: Delta Sharing nyílt megosztással megosztott adatok megtekintése hozzáférési jogkivonatokkal és a Delta Sharing nyílt forráskódú projekt.

  • Databricks-munkaterületen. A címzett munkaterületeket nem kell engedélyezni a Unity Cataloghoz, de az irányításnak, az egyszerűségnek és a teljesítménynek vannak előnyei, ha vannak.

    Az ilyen előnyöket igénylő címzett szervezeteknek nem kell minden eszközt áttelepíteniük a Unity Catalogba. Csak egy Azure Databricks munkaterületre van szüksége, amely engedélyezve van a Unity Catalog számára az Önnel megosztott objektumok kezeléséhez. Egyes fiókokban az új munkaterületek automatikusan engedélyezve vannak a Unity Cataloghoz. Lásd : A Unity-katalógus automatikus engedélyezése.

Lásd: Adatmegosztással megosztott adatok olvasása tulajdonosi jogkivonatokkal , valamint Adatbricks-to-Databricks deltamegosztással megosztott adatok olvasása (címzettek számára).

Databricks-ügyfélnek kell lennem a Delta-megosztás használatához?

Nem, a Delta-megosztás egy nyílt protokoll. A nem Databricks-adatokat bármely adatplatformon megoszthatja a címzettekkel. A szolgáltatók konfigurálhatnak egy nyitott Delta Sharing-kiszolgálót, hogy bármely számítási platformról megosszanak. A címzettek számos adattermékhez használhatják a megosztott adatokat nyílt forráskód Delta Sharing-összekötőkkel, beleértve Power BI, pandas és nyílt forráskód Sparkot.

A Delta Sharing használata azonban számos előnnyel jár a Azure Databricks, különösen a Unity Catalog-kompatibilis munkaterületről való megosztással.

A részletekért lásd a GYIK első kérdését.

Hogyan merülnek fel és ellenőrizhetők a Delta megosztási költségei?

A Delta-megosztás költsége a nézetek, a materializált nézetek és a streamelési táblák megosztásakor és elérésekor merül fel. Ezek a megosztás lehetséges költségforrásai:

  • A Azure Databricks által felszámított számítási költség.
  • Tárolási és hálózati átviteli (kimenő) költségek, amelyeket a tároló szállítója számít fel.
  • Külföldi számítási forrásköltség külföldi sémák és táblák megosztásakor.

A számítás végrehajtásának módja és az, hogy ki fizet érte, több tényezőtől függ:

  • A címzett számítógépének típusa
  • Függetlenül attól, hogy a megosztás ugyanazon Azure Databricks fiókon belül vagy fiókok között történik-e

Az alábbi táblázat a nézetek Delta Sharing használatával történő megosztásának és elérésének számlázási módját ismerteti:

Címzett számítógép-feldolgozás Fiókkapcsolat Ki fizet Számlázáshoz használt termékváltozat Hozzáférési módszer
Databricks Serverless Any Recipient* A címzett kiszolgáló nélküli A címzett közvetlen hozzáférést kap a mögöttes adatokhoz
Databricks Classic Ugyanaz a fiók Recipient* A címzett klasszikusa A címzett közvetlen hozzáférést kap a mögöttes adatokhoz
Databricks Classic Eltérő fiók Recipient A szolgáltató interaktív kiszolgáló nélküli A szolgáltató végzi a szűrést
Delta-megosztási összekötők megnyitása Any Provider A szolgáltató interaktív kiszolgáló nélküli A szolgáltató végzi a szűrést

* Ha a Delta-megosztást egy másik fiók kiszolgáló nélküli számítását használó címzetttel használja, vagy ha egy címzett ugyanabban a fiókban van, nincs növekményes díj. Ez azt jelenti, hogy az adategység megvalósítása nem jár további költségekkel.

Idegen táblák (bétaverzió) megosztásakor a materializálás mindig a szolgáltató oldalán történik és tárolódik. Külföldi Iceberg-táblák esetén a materializálás a szolgáltató oldalán történik, amikor egy nyitott címzettel lép interakcióba, aki nem használ Iceberg-ügyfelet. Előfordulhat, hogy a szolgáltatók az adatok materializálásához használt alapértelmezett tárterülethez kapcsolódó többletköltséget láthatnak. A bétaverzió során a külföldi táblák számítási költségei nem merülnek fel.

A számlázás hozzárendelése a számlázható használati rendszer táblareferenciája és a Delta Sharing materialization history system table reference használatával is lekérdezhető. Ha a címzett fizet a hozzárendelésért, akkor csak a címzett láthatja a társított rekordot a rendszertáblában. A lekérdezések például a Minta lekérdezések című témakörben olvashatók.

A Delta-megosztás kimenő költségekkel jár?

Régión belüli Delta Sharing nem jár kimenő költséggel. Más adatmegosztási platformoktól eltérően a Delta-megosztás nem igényel adatreplikációt. Ennek a modellnek számos előnye van, de ez azt jelenti, hogy az Ön felhőszolgáltatója kimenő adatforgalmi díjakat számíthat fel, ha Ön adatokat oszt meg felhők vagy régiók között. Azure Databricks támogatja a Cloudflare R2-ről való megosztást, amely nem jár kimenő díjakkal, és egyéb eszközöket és javaslatokat biztosít a kimenő díjak figyelésére és elkerülésére. Lásd a Delta Sharing kimenő költségeinek monitorozását és kezelését (szolgáltatók számára).

A címzettek közvetlen hozzáféréssel rendelkeznek az alapul szolgáló adatokhoz megosztott nézetekben, materializált nézetekben és streamelési táblákban?

Megosztott nézetek, materializált nézetek és streamelési táblák esetén az adatátvevő közvetlen hozzáféréssel rendelkezik, ha az alábbiak egyike igaz:

  • A címzett kiszolgáló nélküli számítást vagy nem dedikált klasszikus számítást használ ugyanazon a Azure Databricks-fiókon.
  • A címzett kiszolgáló nélküli számítást használ egy másik Azure Databricks-fiókon.

Ellenkező esetben az adatok a szolgáltatói oldalon lesznek materializálva és szűrve.

Az adatok materializálása a megosztott adategység szülőtároló helye alatt történik.

A materializált eszközök megosztásakor a számítás feldolgozza a kérést a szükséges szűrők alkalmazásával és a szolgáltató tárolójában gyorsítótárazott ideiglenes materializáció létrehozásával. Ezeket a szűrt adatokat a rendszer előre aláírt, rövid élettartamú URL-címek használatával érkezik a címzettekhez, biztosítva a biztonságos hozzáférést, miközben fenntartja a szolgáltató–címzett hozzáférés-vezérlést.

Leképezett adat-hozzáférési architektúra.

Visszavonhatják a szolgáltatók a címzettek hozzáférését?

Igen, a címzettek hozzáférése igény szerint és meghatározott részletességi szinten visszavonható. Megtagadhatja a címzettek hozzáférését adott megosztásokhoz és adott IP-címekhez, szűrheti a címzett táblázatos adatait, visszavonhatja a címzett jogkivonatait, és teljes egészében törölheti a címzetteket. Lásd: Megosztáshoz való hozzáférés visszavonása és adatátvevők létrehozása és kezelése a Delta-megosztáshoz (Databricks-to-Databricks-megosztás).

Nem biztonságos előre aláírt URL-címeket használni?

A Delta-megosztás előre aláírt URL-címekkel biztosít ideiglenes hozzáférést egy objektumtárolóban lévő fájlhoz. Ezeket csak azok a címzettek kapják meg, akik már rendelkeznek hozzáféréssel a megosztott adatokhoz. Biztonságosak, mert rövid élettartamúak, és nem bővítik a hozzáférés szintjét a címzettek által már megadott szintnél.

Biztonságosak a Delta-megosztás nyílt megosztási protokollban használt tokenek?

Mivel a Delta-megosztás lehetővé teszi a platformfüggetlen megosztást – más elérhető adatmegosztási platformokkal ellentétben –, a megosztási protokollhoz nyílt tokenre van szükség. A szolgáltatók a jogkivonat élettartamának konfigurálásával, a hálózati vezérlők beállításával és a hozzáférés igény szerinti visszavonásával biztosíthatják a jogkivonatok biztonságát. Emellett a token nem bővíti a hozzáférési szintet azon túl, amit a címzettek már megkaptak. Lásd a jogkivonatok biztonsági szempontjait.

Ha inkább nem használ tokeneket a címzettek megosztásaihoz való hozzáférés kezelésére, használja a Databricks-to-Databricks megosztást, vagy forduljon a Databricks ügyfélszolgálatához alternatív megoldásokért.

Mi a különbség a Lakeflow Connect és a Delta Sharing között?

A Delta Sharing lehetővé teszi az élő adatok biztonságos megosztását platformok, felhők és régiók között. A Databricks a felügyelt összekötők használatával történő betöltést javasolja, mivel nagy adatmennyiségek, alacsony késésű lekérdezések és külső API-korlátok fogadására méretezhetők. Azonban lehet, hogy szeretné lekérdezni az adatait anélkül, hogy átmozgatná őket.

Ha választhat a felügyelt összekötők és a Delta-megosztás között, válassza a Delta-megosztás lehetőséget a következő helyzetekben:

  • Az adatkettőzés korlátozása.
  • A lehető legfrissebb adatok lekérdezése.

korlátozások

Táblázatformátum és funkciótámogatás

Formátumkövetelmények:

  • A táblázatos adatoknak Delta vagy felügyelt Iceberg táblaformátumban kell lenniük. A Parquet-táblákat egyszerűen átalakíthatja Delta-ra – és vissza. Lásd CONVERT TO DELTA.
  • A Delta-megosztás csak az UniForm-táblákat tudja olvasni Delta-táblákként.

Nem támogatott táblák:

Csak a Databricks-to-Databricks megosztása

A következő objektumok csak a Databricks–Databricks megosztási folyamattal oszthatók meg:

Views

Online közvetítés

  • Deltamegosztás nem támogatja a responseFormat módosítását, miközben egy stream forrás fut vagy egy stream újraindul.

Címzett metaadatai

  • A megosztott katalógusból származó information_schema táblák a Unity Katalógusban tárolt metaadatokat tükrözik. Ez a metaadatok csak akkor frissülnek a szolgáltatótól, ha közvetlenül kérdezi le a megosztott táblát, vagy futtat egy parancsot, például a DESCRIBE vagy REFRESH FOREIGNa . Addig information_schema is elavultnak tűnhet a szolgáltató adataihoz képest.

Erőforrás- és műszaki korlátok

  • A megosztott táblákhoz engedélyezett metaadatokban lévő fájlok száma korlátozott. További információkért lásd: Erőforráskorlát túllépése miatti hibák.
  • A information_schema nevű sémák nem importálhatók Unity Catalog-metaadattárba, mert ez a sémanév a Unity Catalogban van fenntartva.

Lásd még a Delta Lake szolgáltatástámogatási mátrixát.

Kaszkádolt törlésekkel elkerülheti a megosztás védelmét

Ha töröl egy szülőobjektumot, például katalógust vagy sémát, a gyermekobjektumok kaszkádolt törlését aktiválja, még akkor is, ha ezek a gyermekobjektumok aktív megosztásokban szerepelnek. Miután egy kaszkádolt törlés eltávolít egy objektumot, nem adhat hozzá újra egy azonos nevű objektumot a megosztáshoz.

A probléma elkerülése érdekében távolítsa el az objektumokat az összes megosztásból, mielőtt törli a szülőobjektumokat.

Erőforráskvóták

Azure Databricks erőforráskvótákat kényszerít ki az összes biztonságos Delta-megosztási objektumra. Ezek a kvóták az erőforráskorlátokban vannak felsorolva. Ha várhatóan túllépi ezeket az erőforráskorlátokat, lépjen kapcsolatba Azure Databricks fiókcsapattal.

A kvótahasználatot a Unity Catalog erőforráskvóta API-kkal figyelheti. Lásd : A Unity Catalog erőforráskvóták használatának monitorozása.

Következő lépések