Megosztott adatok olvasása a Delta Sharing nyílt megosztásával (címzettek számára)

Cikk
06/12/2024

Ez a cikk bemutatja, hogyan olvashatja be az Önnel megosztott adatokat a Delta Sharing nyílt megosztási protokollal. Útmutatást tartalmaz a megosztott adatok Databricks, Apache Spark, pandas, PowerBI és Tableau használatával történő olvasásához.

Nyílt megosztás esetén egy hitelesítőadat-fájlt használ, amelyet az adatszolgáltató megosztott a csapat egyik tagjával, hogy biztonságos olvasási hozzáférést kapjon a megosztott adatokhoz. Az access mindaddig megmarad, amíg a hitelesítő adatok érvényesek, és a szolgáltató továbbra is megosztja az adatokat. A szolgáltatók kezelik a hitelesítő adatok lejáratát és rotálását. Az adatok frissítései közel valós időben érhetők el. Elolvashatja és másolatot készíthet a megosztott adatokról, de nem módosíthatja a forrásadatokat.

Feljegyzés

Ha az adatokat a Databricks-to-Databricks Delta Sharing használatával osztották meg Önnel, az adatok eléréséhez nincs szükség hitelesítőadat-fájlra, és ez a cikk nem vonatkozik Önre. Útmutatást a Databricks-to-Databricks Delta Sharing használatával megosztott adatok olvasása (címzettek számára) című témakörben talál.

Az alábbi szakaszok bemutatják, hogyan használható az Azure Databricks, az Apache Spark, a pandas és a Power BI a megosztott adatok elérésére és olvasására a hitelesítőadat-fájl használatával. A Delta Sharing-összekötők teljes listáját és a használatukkal kapcsolatos információkat a Delta Sharing nyílt forráskód dokumentációjában találja. Ha problémát tapasztal a megosztott adatok elérésében, forduljon az adatszolgáltatóhoz.

Feljegyzés

A partnerintegrációkat, hacsak másként nem jelzik, a harmadik felek biztosítják, és önnek rendelkeznie kell egy fiókkal a megfelelő szolgáltatóval a termékeik és szolgáltatásaik használatához. Bár a Databricks mindent megtesz ezen tartalom naprakészen tartása érdekében, nem tudunk felelősséget vállalni az integrációkért és a partnerintegrációs oldalak tartalmának pontosságáért. Az integrációkkal kapcsolatban forduljon a megfelelő szolgáltatóhoz.

Mielőtt elkezdené

A csapat tagjának le kell töltenie az adatszolgáltató által megosztott hitelesítőadat-fájlt. Lásd: Hozzáférés kérése a nyílt megosztási modellben.

Biztonságos csatornát kell használniuk, hogy megosztják Önnel a fájlt vagy a fájl helyét.

Ez a szakasz azt ismerteti, hogyan érheti el a megosztott adatokat egy jegyzetfüzet használatával az Azure Databricks-munkaterületen egy nyílt megosztási összekötő használatával. Ön vagy a csapat egy másik tagja a hitelesítőadat-fájlt a DBFS-ben tárolja, majd azzal hitelesíti az adatszolgáltató Azure Databricks-fiókjában, és felolvassa azokat az adatokat, amelyeket az adatszolgáltató megosztott Önnel.

Feljegyzés

Ha az adatszolgáltató a Databricks-to-Databricks megosztást használja, és nem osztott meg önnel hitelesítő adatokat, a Unity Catalog használatával kell hozzáférnie az adatokhoz. Útmutatást a Databricks-to-Databricks Delta Sharing használatával megosztott adatok olvasása (címzettek számára) című témakörben talál.

Ebben a példában több cellát tartalmazó jegyzetfüzetet hoz létre, amelyet egymástól függetlenül futtathat. Ehelyett hozzáadhatja ugyanahhoz a cellához a jegyzetfüzet-parancsokat, és egymás után futtathatja őket.

1. lépés: A hitelesítőadat-fájl tárolása a DBFS-ben (Python-utasítások)

Ebben a lépésben egy Python-jegyzetfüzetet használ az Azure Databricksben a hitelesítőadat-fájl tárolásához, hogy a csapat felhasználói hozzáférhessenek a megosztott adatokhoz.

Ugorjon a következő lépésre, ha Ön vagy a csapat egy tagja már tárolta a hitelesítőadat-fájlt a DBFS-ben.

Egy szövegszerkesztőben nyissa meg a hitelesítőadat-fájlt.
Az Azure Databricks-munkaterületen kattintson az Új > jegyzetfüzet elemre.
- Adjon meg egy nevet.
- Állítsa be a jegyzetfüzet alapértelmezett nyelvét Pythonra.
- Jelölje ki a jegyzetfüzethez csatolni kívánt fürtöt.
- Kattintson a Létrehozás gombra.
A jegyzetfüzet megnyílik a jegyzetfüzetszerkesztőben.
Ha Python vagy pandas használatával szeretné elérni a megosztott adatokat, telepítse a deltamegosztó Python-összekötőt. A jegyzetfüzet-szerkesztőben illessze be a következő parancsot:
```
%sh pip install delta-sharing
```
Futtassa a cellát.

A delta-sharing Python-kódtár akkor lesz telepítve a fürtben, ha még nincs telepítve.
Egy új cellába illessze be a következő parancsot, amely feltölti a hitelesítőadat-fájl tartalmát egy DBFS-mappába. Cserélje le a változókat az alábbiak szerint:
- <dbfs-path>: annak a mappának az elérési útja, ahová menteni szeretné a hitelesítőadat-fájlt
- <credential-file-contents>: a hitelesítőadat-fájl tartalma. Ez nem a fájl elérési útja, hanem a fájl másolt tartalma.
  
  A hitelesítőadat-fájl három mezőt definiáló JSON-t tartalmaz: shareCredentialsVersion, endpointés bearerToken.
```
%scala
dbutils.fs.put("<dbfs-path>/config.share","""
<credential-file-contents>
""")
```
Futtassa a cellát.

A hitelesítőadat-fájl feltöltése után törölheti ezt a cellát. A munkaterület összes felhasználója elolvashatja a hitelesítő adatokat a DBFS-ből, és a hitelesítő adatfájl elérhető a DBFS-ben a munkaterület összes fürtjén és SQL-raktárában. A cella törléséhez kattintson az x gombra a jobb szélső cellaműveletek menüben.

2. lépés: Megosztott táblák listázása és olvasása jegyzetfüzet használatával

Ebben a lépésben felsorolja a megosztásban lévő táblákat, illetve a megosztott táblák és partíciók készletét, és lekérdez egy táblát.

A Python használatával listázhatja a megosztás tábláinak listáját.

Illessze be az alábbi parancsot egy új cellába. Cserélje le <dbfs-path> az 1. lépésben létrehozott elérési útra: A hitelesítőadat-fájl tárolása DBFS-ben (Python-utasítások).

A kód futtatásakor a Python beolvassa a hitelesítőadat-fájlt a DBFS-ből a fürtön. A DBFS-ben tárolt adatok elérése az elérési úton /dbfs/.
```
import delta_sharing

client = delta_sharing.SharingClient(f"/dbfs/<dbfs-path>/config.share")

client.list_all_tables()
```
Futtassa a cellát.

Az eredmény egy táblázattömb, valamint az egyes táblák metaadatai. Az alábbi kimenet két táblát jelenít meg:
```
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
```
Ha a kimenet üres, vagy nem tartalmazza a várt táblákat, forduljon az adatszolgáltatóhoz.
Megosztott tábla lekérdezése.
- A Scala használata:
  
  Illessze be az alábbi parancsot egy új cellába. A kód futtatásakor a hitelesítőadat-fájl beolvassa a DBFS-ből a JVM-n keresztül.
  
  Cserélje le a változókat az alábbiak szerint:
  - <profile-path>: a hitelesítőadat-fájl DBFS-elérési útja. Például: /<dbfs-path>/config.share.
  - <share-name>: a tábla értéke share= .
  - <schema-name>: a tábla értéke schema= .
  - <table-name>: a tábla értéke name= .
```
%scala
    spark.read.format("deltaSharing")
    .load("<profile-path>#<share-name>.<schema-name>.<table-name>").limit(10);
```
  Futtassa a cellát. Minden alkalommal, amikor betölti a megosztott táblát, friss adatokat fog látni a forrásból.
- Az SQL használata:
  
  Ha sql használatával szeretne adatokat lekérdezni, hozzon létre egy helyi táblát a munkaterületen a megosztott táblából, majd kérdezi le a helyi táblát. A megosztott adatokat a rendszer nem tárolja vagy gyorsítótárazza a helyi táblában. Minden alkalommal, amikor lekérdezi a helyi táblát, megjelenik a megosztott adatok aktuális állapota.
  
  Illessze be az alábbi parancsot egy új cellába.
  
  Cserélje le a változókat az alábbiak szerint:
  - <local-table-name>: a helyi tábla neve.
  - <profile-path>: a hitelesítőadat-fájl helye.
  - <share-name>: a tábla értéke share= .
  - <schema-name>: a tábla értéke schema= .
  - <table-name>: a tábla értéke name= .
```
%sql
DROP TABLE IF EXISTS table_name;

CREATE TABLE <local-table-name> USING deltaSharing LOCATION "<profile-path>#<share-name>.<schema-name>.<table-name>";

SELECT * FROM <local-table-name> LIMIT 10;
```
  A parancs futtatásakor a rendszer közvetlenül lekérdezi a megosztott adatokat. Tesztként a rendszer lekérdezi a táblát, és visszaadja az első 10 eredményt.
Ha a kimenet üres, vagy nem tartalmazza a várt adatokat, forduljon az adatszolgáltatóhoz.

Apache Spark: Megosztott adatok olvasása

Az alábbi lépéseket követve hozzáférhet a megosztott adatokhoz a Spark 3.x vagy újabb verziójával.

Ezek az utasítások feltételezik, hogy hozzáféréssel rendelkezik az adatszolgáltató által megosztott hitelesítőadat-fájlhoz. Lásd: Hozzáférés kérése a nyílt megosztási modellben.

A megosztott adatokhoz kapcsolódó metaadatok, például az Önnel megosztott táblák listájának eléréséhez tegye a következőket. Ez a példa Pythont használ.

Telepítse a deltamegosztó Python-összekötőt:
```
pip install delta-sharing
```
Telepítse az Apache Spark-összekötőt.

Megosztott táblák listázása a Spark használatával

Listázhatja a megosztás tábláinak listáját. Az alábbi példában cserélje le <profile-path> a hitelesítőadat-fájl helyét.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

Az eredmény egy táblázattömb, valamint az egyes táblák metaadatai. Az alábbi kimenet két táblát jelenít meg:

Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]

Ha a kimenet üres, vagy nem tartalmazza a várt táblákat, forduljon az adatszolgáltatóhoz.

Megosztott adatok elérése a Spark használatával

Futtassa a következőt, és cserélje le a következő változókat:

<profile-path>: a hitelesítőadat-fájl helye.
<share-name>: a tábla értéke share= .
<schema-name>: a tábla értéke schema= .
<table-name>: a tábla értéke name= .
<version-as-of>:szabadon választható. A tábla azon verziója, amely betölti az adatokat. Csak akkor működik, ha az adatszolgáltató megosztja a tábla előzményeit. A 0.5.0-s vagy újabb verzióra van szükség delta-sharing-spark .
<timestamp-as-of>:szabadon választható. Töltse be az adatokat a megadott időbélyeg előtti vagy utáni verzióban. Csak akkor működik, ha az adatszolgáltató megosztja a tábla előzményeit. A 0.6.0-s vagy újabb verzióra van szükség delta-sharing-spark .

Python

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", version=<version-as-of>)

spark.read.format("deltaSharing")\
.option("versionAsOf", <version-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", timestamp=<timestamp-as-of>)

spark.read.format("deltaSharing")\
.option("timestampAsOf", <timestamp-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))

Scala

Futtassa a következőt, és cserélje le a következő változókat:

<profile-path>: a hitelesítőadat-fájl helye.
<share-name>: a tábla értéke share= .
<schema-name>: a tábla értéke schema= .
<table-name>: a tábla értéke name= .
<version-as-of>:szabadon választható. A tábla azon verziója, amely betölti az adatokat. Csak akkor működik, ha az adatszolgáltató megosztja a tábla előzményeit. A 0.5.0-s vagy újabb verzióra van szükség delta-sharing-spark .
<timestamp-as-of>:szabadon választható. Töltse be az adatokat a megadott időbélyeg előtti vagy utáni verzióban. Csak akkor működik, ha az adatszolgáltató megosztja a tábla előzményeit. A 0.6.0-s vagy újabb verzióra van szükség delta-sharing-spark .

spark.read.format("deltaSharing")
.option("versionAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

spark.read.format("deltaSharing")
.option("timestampAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)

Megosztott változásadatcsatorna elérése a Spark használatával

Ha a táblaelőzmények meg vannak osztva Önnel, és engedélyezve van a változásadatcsatorna (CDF) a forrástáblán, az alábbi parancs futtatásával érheti el a változásadatcsatornát, lecserélve ezeket a változókat. A 0.5.0-s vagy újabb verzióra van szükség delta-sharing-spark .

Egy és csak egy indítási paramétert kell megadni.

<profile-path>: a hitelesítőadat-fájl helye.
<share-name>: a tábla értéke share= .
<schema-name>: a tábla értéke schema= .
<table-name>: a tábla értéke name= .
<starting-version>:szabadon választható. A lekérdezés kezdő verziója, beleértve a következőt: Adja meg hosszúként.
<ending-version>:szabadon választható. A lekérdezés befejező verziója, beleértve a következőt: Ha a befejező verzió nincs megadva, az API a legújabb táblaverziót használja.
<starting-timestamp>:szabadon választható. A lekérdezés kezdő időbélyege, amely az időbélyegzővel nagyobb vagy egyenlő létrehozott verzióvá lesz konvertálva. Adja meg sztringként a formátumot yyyy-mm-dd hh:mm:ss[.fffffffff].
<ending-timestamp>:szabadon választható. A lekérdezés záró időbélyege, amely a korábban létrehozott vagy ezzel az időbélyegzővel egyenlő verzióra lesz konvertálva. Adja meg sztringként a formátumot yyyy-mm-dd hh:mm:ss[.fffffffff]

Python

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<ending-version>)

delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("statingVersion", <starting-version>)\
.option("endingVersion", <ending-version>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("startingTimestamp", <starting-timestamp>)\
.option("endingTimestamp", <ending-timestamp>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Scala

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("statingVersion", <starting-version>)
.option("endingVersion", <ending-version>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("startingTimestamp", <starting-timestamp>)
.option("endingTimestamp", <ending-timestamp>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Ha a kimenet üres, vagy nem tartalmazza a várt adatokat, forduljon az adatszolgáltatóhoz.

Megosztott tábla elérése a Spark Strukturált streamelés használatával

Ha a táblaelőzményeket megosztja Önnel, streamelheti a megosztott adatokat. A 0.6.0-s vagy újabb verzióra van szükség delta-sharing-spark .

Támogatott lehetőségek:

ignoreDeletes: Az adatokat törlő tranzakciók figyelmen kívül hagyása.
ignoreChanges: Újra feldolgozhatja a frissítéseket, ha a fájlokat újraírták a forrástáblában olyan adatmódosítási művelet miatt, mint UPDATEa , MERGE INTO, DELETE (partíciókon belüli) vagy OVERWRITE. Változatlan sorok továbbra is kibocsáthatók. Ezért az alsóbb rétegbeli fogyasztóknak képesnek kell lenniük az ismétlődések kezelésére. A rendszer nem propagálja a törléseket az alsóbb rétegben. ignoreChanges alösszegek ignoreDeletes. Ezért ha használja ignoreChanges, a streamet nem zavarja a forrástábla törlése vagy frissítése.
startingVersion: A megosztott tábla verziója, amelyből kiindulni szeretne. Az ebből a verzióból (beleértve) kezdődő összes táblamódosítást a streamelési forrás felolvassa.
startingTimestamp: A kezdéshez megadott időbélyeg. Az időbélyegen vagy után véglegesített összes táblamódosítást (beleértve) a streamelési forrás felolvassa. Példa: "2023-01-01 00:00:00.0"
maxFilesPerTrigger: Az összes mikrokötegben figyelembe venni kívánt új fájlok száma.
maxBytesPerTrigger: Az egyes mikro kötegekben feldolgozott adatok mennyisége. Ez a beállítás "soft max" értéket állít be, ami azt jelenti, hogy egy köteg körülbelül ennyi adatot dolgoz fel, és a korlátnál többet is feldolgozhat annak érdekében, hogy a streamlekérdezés előrehaladjon olyan esetekben, amikor a legkisebb bemeneti egység nagyobb ennél a korlátnál.
readChangeFeed: A stream felolvassa a megosztott tábla változásadatcsatornáját.

Nem támogatott beállítások:

Trigger.availableNow

Strukturált streamelési lekérdezések mintája

Scala

spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Python

spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")

Lásd még : Streamelés az Azure Databricksben.

Táblák olvasása engedélyezett törlési vektorokkal vagy oszlopleképezéssel

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

A törlési vektorok olyan tárolási optimalizálási funkciók, amelyeket a szolgáltató engedélyezhet a megosztott Delta-táblákon. Lásd: Mik azok a törlési vektorok?.

Az Azure Databricks a Delta-táblák oszlopleképezését is támogatja. Lásd: Oszlopok átnevezése és elvetése Delta Lake-oszlopleképezéssel.

Ha a szolgáltató olyan táblát osztott meg, amelyen engedélyezve van a törlési vektorok vagy az oszlopleképezés, elolvashatja a táblát a 3.1 vagy újabb verziót futtató delta-sharing-spark számítással. Databricks-fürtök használata esetén a Kötegolvasásokat a Databricks Runtime 14.1-et vagy újabb verzióját futtató fürt használatával hajthatja végre. A CDF- és streamelési lekérdezésekhez a Databricks Runtime 14.2-s vagy újabb verziója szükséges.

A kötegelt lekérdezéseket igény szerint is végrehajthatja, mert azok automatikusan feloldhatók responseFormat a megosztott tábla táblafunkciói alapján.

A változásadatcsatorna (CDF) olvasásához vagy a megosztott táblák streamelési lekérdezéseinek törlési vektorokkal vagy oszlopleképezéssel történő végrehajtásához be kell állítania a további beállítást responseFormat=delta.

Az alábbi példák kötegelt, CDF- és streamelési lekérdezéseket mutatnak be:

import org.apache.spark.sql.SparkSession

val spark = SparkSession
        .builder()
        .appName("...")
        .master("...")
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .getOrCreate()

val tablePath = "<profile-file-path>#<share-name>.<schema-name>.<table-name>"

// Batch query
spark.read.format("deltaSharing").load(tablePath)

// CDF query
spark.read.format("deltaSharing")
  .option("readChangeFeed", "true")
  .option("responseFormat", "delta")
  .option("startingVersion", 1)
  .load(tablePath)

// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").load(tablePath)

Pandas: Megosztott adatok olvasása

Kövesse ezeket a lépéseket a megosztott adatok eléréséhez a pandas 0.25.3 vagy újabb verziójában.

Ezek az utasítások feltételezik, hogy hozzáféréssel rendelkezik az adatszolgáltató által megosztott hitelesítőadat-fájlhoz. Lásd: Hozzáférés kérése a nyílt megosztási modellben.

A megosztott adatokhoz kapcsolódó metaadatok, például az Önnel megosztott táblák listájának eléréséhez telepítenie kell a deltamegosztó Python-összekötőt.

pip install delta-sharing

Megosztott táblák listázása pandas használatával

A megosztás tábláinak listázásához futtassa az alábbiakat, és cserélje le <profile-path>/config.share a hitelesítőadat-fájl helyét.

import delta_sharing

client = delta_sharing.SharingClient(f"<profile-path>/config.share")

client.list_all_tables()

Ha a kimenet üres, vagy nem tartalmazza a várt táblákat, forduljon az adatszolgáltatóhoz.

Megosztott adatok elérése pandas használatával

Ha pythonnal szeretné elérni a megosztott adatokat a pandasban, futtassa a következőket, és cserélje le a változókat az alábbiak szerint:

<profile-path>: a hitelesítőadat-fájl helye.
<share-name>: a tábla értéke share= .
<schema-name>: a tábla értéke schema= .
<table-name>: a tábla értéke name= .

import delta_sharing
delta_sharing.load_as_pandas(f"<profile-path>#<share-name>.<schema-name>.<table-name>")

Megosztott változásadatcsatorna elérése pandas használatával

Ha a Python használatával szeretné elérni a megosztott táblák változásadatcsatornáit a Pandasban, futtassa az alábbiakat, és cserélje le a változókat az alábbiak szerint. Előfordulhat, hogy nem érhető el változásadatcsatorna, attól függően, hogy az adatszolgáltató megosztotta-e a tábla változásadatcsatornát.

<starting-version>:szabadon választható. A lekérdezés kezdő verziója, beleértve a következőt:
<ending-version>:szabadon választható. A lekérdezés befejező verziója, beleértve a következőt:
<starting-timestamp>:szabadon választható. A lekérdezés kezdő időbélyege. A rendszer ezt az időbélyeget nagyobb vagy egyenlő verzióra konvertálja.
<ending-timestamp>:szabadon választható. A lekérdezés záró időbélyege. A program ezt az időbélyeget korábban létrehozott vagy egyenlő verzióra alakítja át.

import delta_sharing
delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_version=<starting-version>,
  ending_version=<starting-version>)

delta_sharing.load_table_changes_as_pandas(
  f"<profile-path>#<share-name>.<schema-name>.<table-name>",
  starting_timestamp=<starting-timestamp>,
  ending_timestamp=<ending-timestamp>)

Ha a kimenet üres, vagy nem tartalmazza a várt adatokat, forduljon az adatszolgáltatóhoz.

Power BI: Megosztott adatok olvasása

A Power BI Delta Sharing-összekötővel felderítheti, elemezheti és vizualizálhatja az Önnel megosztott adathalmazokat a Delta Sharing nyílt protokollal.

Követelmények

Power BI Desktop 2.99.621.0 vagy újabb.
Hozzáférés az adatszolgáltató által megosztott hitelesítőadat-fájlhoz. Lásd: Hozzáférés kérése a nyílt megosztási modellben.

Csatlakozás a Databrickshez

Ha a Delta Sharing-összekötővel szeretne csatlakozni az Azure Databrickshez, tegye a következőket:

Nyissa meg a megosztott hitelesítőadat-fájlt egy szövegszerkesztővel a végpont URL-címének és a jogkivonatnak a lekéréséhez.
Nyissa meg a Power BI Desktopot.
Az Adatok lekérése menüben keresse meg a Delta-megosztást.
Jelölje ki az összekötőt, és kattintson a Csatlakozás gombra.
Adja meg a hitelesítőadat-fájlból a Delta megosztókiszolgáló URL-mezőjébe másolt végpont URL-címét .
Igény szerint a Speciális beállítások lapon állítsa be a letölthető sorok maximális számának sorkorlátját . Ez alapértelmezés szerint 1 millió sorra van beállítva.
Kattintson az OK gombra.
Hitelesítéshez másolja a hitelesítő adatok fájljából lekért jogkivonatot a Tulajdonosi jogkivonatba.
Kattintson a Connect (Csatlakozás) gombra.

A Power BI Delta Sharing Connector a következő korlátozásokkal rendelkezik:

Az összekötő által betöltött adatoknak el kell férniük a gép memóriájába. A követelmény kezeléséhez az összekötő az importált sorok számát a Power BI Desktop Speciális beállítások lapján megadott sorkorlátra korlátozza.

Tableau: Megosztott adatok olvasása

A Tableau Delta Sharing-összekötő lehetővé teszi az Önnel megosztott adathalmazok felderítését, elemzését és vizualizációit a Delta Sharing nyílt protokollal.

Követelmények

Tableau Desktop és Tableau Server 2024.1 vagy újabb
Hozzáférés az adatszolgáltató által megosztott hitelesítőadat-fájlhoz. Lásd: Hozzáférés kérése a nyílt megosztási modellben.

Csatlakozás az Azure Databrickshez

Ha a Delta Sharing-összekötővel szeretne csatlakozni az Azure Databrickshez, tegye a következőket:

Nyissa meg a Tableau Exchange-t, kövesse az utasításokat a Delta Sharing Connector letöltéséhez, és helyezze el egy megfelelő asztali mappába.
Nyissa meg a Tableau Desktopot.
Az Összekötők lapon keressen rá a "Delta Sharing by Databricks" kifejezésre.
Válassza a Megosztás feltöltése lehetőséget, és válassza ki a szolgáltató által megosztott hitelesítőadat-fájlt.
Kattintson az Adatok lekérése gombra.
Az Adatkezelőben válassza ki a táblát.
Szükség esetén SQL-szűrőket vagy sorkorlátokat adhat hozzá.
Kattintson a Táblázatadatok lekérése gombra.

A Tableau Delta Sharing Connector a következő korlátozásokkal rendelkezik:

Az összekötő által betöltött adatoknak el kell férniük a gép memóriájába. A követelmény kezeléséhez az összekötő az importált sorok számát a Tableauban beállított sorkorlátra korlátozza.
A rendszer minden oszlopot típusként Stringad vissza.
Az SQL Filter csak akkor működik, ha a Delta Sharing-kiszolgáló támogatja a PredikateHint parancsot.

Új hitelesítő adatok kérése

Ha a hitelesítő adatok aktiválási URL-címe vagy a letöltött hitelesítő adatok elvesznek, sérültek vagy sérültek, vagy a hitelesítő adatok lejárnak anélkül, hogy a szolgáltató újat küldene Önnek, forduljon a szolgáltatójához, és kérjen új hitelesítő adatokat.

Megosztás a következőn keresztül:

Mielőtt elkezdené

1. lépés: A hitelesítőadat-fájl tárolása a DBFS-ben (Python-utasítások)

2. lépés: Megosztott táblák listázása és olvasása jegyzetfüzet használatával

Apache Spark: Megosztott adatok olvasása

Megosztott táblák listázása a Spark használatával

Megosztott adatok elérése a Spark használatával

Python

Scala

Megosztott változásadatcsatorna elérése a Spark használatával

Python

Scala

Megosztott tábla elérése a Spark Strukturált streamelés használatával

Strukturált streamelési lekérdezések mintája

Scala

Python

Táblák olvasása engedélyezett törlési vektorokkal vagy oszlopleképezéssel

Pandas: Megosztott adatok olvasása

Megosztott táblák listázása pandas használatával

Megosztott adatok elérése pandas használatával

Megosztott változásadatcsatorna elérése pandas használatával

Power BI: Megosztott adatok olvasása

Követelmények

Csatlakozás a Databrickshez

Tableau: Megosztott adatok olvasása

Követelmények

Csatlakozás az Azure Databrickshez

Új hitelesítő adatok kérése

Visszajelzés

Visszajelzés

További források

Megosztás a következőn keresztül:

Mielőtt elkezdené

Azure Databricks: Megosztott adatok olvasása nyílt megosztási összekötőkkel

1. lépés: A hitelesítőadat-fájl tárolása a DBFS-ben (Python-utasítások)

2. lépés: Megosztott táblák listázása és olvasása jegyzetfüzet használatával

Apache Spark: Megosztott adatok olvasása

A Delta Sharing Python- és Spark-összekötők telepítése

Megosztott táblák listázása a Spark használatával

Megosztott adatok elérése a Spark használatával

Python

Scala

Megosztott változásadatcsatorna elérése a Spark használatával

Python

Scala

Megosztott tábla elérése a Spark Strukturált streamelés használatával

Strukturált streamelési lekérdezések mintája

Scala

Python

Táblák olvasása engedélyezett törlési vektorokkal vagy oszlopleképezéssel

Pandas: Megosztott adatok olvasása

A Delta Sharing Python-összekötő telepítése

Megosztott táblák listázása pandas használatával

Megosztott adatok elérése pandas használatával

Megosztott változásadatcsatorna elérése pandas használatával

Power BI: Megosztott adatok olvasása

Követelmények

Csatlakozás a Databrickshez

A Power BI Delta Sharing-összekötő korlátozásai

Tableau: Megosztott adatok olvasása

Követelmények

Csatlakozás az Azure Databrickshez

A Tableau Delta Sharing-összekötő korlátozásai

Új hitelesítő adatok kérése

Visszajelzés

Visszajelzés

További források