A OneLake integrálása az Azure Databricks szolgáltatással

Cikk
02/26/2024

Ez a forgatókönyv bemutatja, hogyan csatlakozhat a OneLake-hez az Azure Databricksen keresztül. Az oktatóanyag elvégzése után az Azure Databricks-munkaterületről olvashat és írhat egy Microsoft Fabric lakehouse-ba.

Előfeltételek

A csatlakozás előtt a következő eszközökre van szüksége:

Háló munkaterület és tóház.
Prémium Szintű Azure Databricks-munkaterület. Csak a prémium Szintű Azure Databricks-munkaterületek támogatják a Microsoft Entra hitelesítő adatok átadását, amelyre ebben a forgatókönyvben szüksége van.

A Databricks-munkaterület beállítása

Nyissa meg az Azure Databricks-munkaterületet, és válassza a Fürt létrehozása lehetőséget>.
A OneLake-ben a Microsoft Entra-identitással való hitelesítéshez engedélyeznie kell az Azure Data Lake Storage (ADLS) hitelesítő adatok átadását a fürtön a Speciális beállítások területen.

Feljegyzés

A Databrickset egy szolgáltatásnévvel is csatlakoztathatja a OneLake-hez. További információ az Azure Databricks szolgáltatásnévvel történő hitelesítéséről: Szolgáltatásnevek kezelése.
Hozza létre a fürtöt az előnyben részesített paraméterekkel. A Databricks-fürtök létrehozásáról további információt a Fürtök konfigurálása – Azure Databricks című témakörben talál.
Nyisson meg egy jegyzetfüzetet, és csatlakoztassa az újonnan létrehozott fürthöz.

Jegyzetfüzet létrehozása

Lépjen a Fabric lakehouse-hoz, és másolja az Azure Blob Filesystem (ABFS) elérési útját a tóházba. A Tulajdonságok panelen található.

Feljegyzés

Az Azure Databricks csak az Azure Blob Filesystem (ABFS) illesztőprogramot támogatja az ADLS Gen2 és a OneLake felé történő olvasáskor és íráskor: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/.
Mentse a lakehouse elérési útját a Databricks-jegyzetfüzetben. Ebben a lakehouse-ben írhatja meg a feldolgozott adatokat később:
```
oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
```
Adatok betöltése a Databricks nyilvános adatkészletéből egy adatkeretbe. A Fabric más részein is elolvashat egy fájlt, vagy kiválaszthat egy fájlt egy másik, már meglévő ADLS Gen2-fiókból.
```
yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
```
Szűrheti, átalakíthatja vagy előkészítheti az adatokat. Ebben a forgatókönyvben levághatja az adathalmazt a gyorsabb betöltéshez, más adatkészletekhez való csatlakozáshoz vagy adott eredményekre való szűréshez.
```
filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
display(filteredTaxiDF)
```

Írja be a szűrt adatkeretet a Fabric lakehouse-ba a OneLake elérési útján.

filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)

Tesztelje, hogy az adatok sikeresen meg vannak-e írva az újonnan betöltött fájl olvasásával.

lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath)
display(lakehouseRead.limit(10))

Gratulálunk! Mostantól az Azure Databricks használatával is olvashat és írhat adatokat a Fabricben.

A OneLake integrálása az Azure HDInsighttal

Megosztás a következőn keresztül:

A OneLake integrálása az Azure Databricks szolgáltatással

Előfeltételek

A Databricks-munkaterület beállítása

Jegyzetfüzet létrehozása

Visszajelzés

További források

Megosztás a következőn keresztül:

A OneLake integrálása az Azure Databricks szolgáltatással

Előfeltételek

A Databricks-munkaterület beállítása

Jegyzetfüzet létrehozása

Kapcsolódó tartalom

Visszajelzés

További források