A OneLake integrálása az Azure Databricks szolgáltatással
Fontos
A Microsoft Fabric előzetes verzióban érhető el.
Ez a forgatókönyv bemutatja, hogyan csatlakozhat a OneLake-hoz az Azure Databricksen keresztül. Az oktatóanyag elvégzése után az Azure Databricks-munkaterületről olvashat és írhat egy Microsoft Fabric Lakehouse-ba.
Előfeltételek
Csatlakozás előtt végezze el az alábbi lépéseket:
- Háló munkaterület és tótárház.
- Prémium Szintű Azure Databricks-munkaterület. Ehhez a forgatókönyvhöz csak a prémium Szintű Azure Databricks-munkaterületek támogatják Microsoft Azure Active Directory hitelesítő adatok átengedését.
A Databricks-munkaterület beállítása
Nyissa meg az Azure Databricks-munkaterületet, és válassza aFürtlétrehozása> lehetőséget.
Ha az Azure AD identitásával szeretne hitelesítést végezni a OneLake-ben, engedélyeznie kell Azure Data Lake Storage hitelesítő adatok átengedése a fürtön a Speciális beállítások területen.
Megjegyzés
A Databrickset szolgáltatásnévvel is csatlakoztathatja a OneLake-hoz. További információ az Azure Databricks szolgáltatásnévvel történő hitelesítéséről: Szolgáltatásnevek az Azure Databricks automatizálásához.
Hozza létre a fürtöt az előnyben részesített paraméterekkel. További információ a Databricks-fürtök létrehozásáról: Fürtök konfigurálása – Azure Databricks.
Nyisson meg egy jegyzetfüzetet, és csatlakoztassa az újonnan létrehozott fürthöz.
A jegyzetfüzet létrehozása
Lépjen a Háló-tóházra, és másolja az ABFS elérési útját a tóházba. A tulajdonságokat a Tulajdonságok panelen találja.
Megjegyzés
Az Azure Databricks csak akkor támogatja az Azure Blob Filesystem (ABFS) illesztőprogramot, ha Azure Data Lake Storage (ADLS) Gen2-be és OneLake-be ír: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/
Mentse a tóház elérési útját a Databricks-jegyzetfüzetben. A feldolgozott adatokat később ebben a tótárházban fogja megírni:
oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
Adatok betöltése a Databricks nyilvános adatkészletéből egy adatkeretbe. A Háló más részein is olvashat fájlokat, vagy kiválaszthat egy fájlt egy másik, már meglévő ADLS Gen2-fiókból.
yellowTaxiDF = (spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
Szűrheti, átalakíthatja vagy előkészítheti az adatokat. Ebben a forgatókönyvben levághatja az adathalmazt a gyorsabb betöltéshez, más adathalmazokhoz való csatlakozáshoz, vagy adott eredményekre szűrhet.
filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4) display(filteredTaxiDF)
Írja be a szűrt adatkeretet a Fabric Lakehouse-ba a OneLake elérési útján.
filteredTaxiDF.write.format("csv").mode("overwrite").csv(oneLakePath)
Az újonnan betöltött fájl olvasásával tesztelje, hogy az adatok sikeresen meg vannak-e írva.
lakehouseRead = spark.read.format('csv').load(oneLakePath) display(lakehouseRead.limit(10))
Gratulálunk! Most már olvashat és írhat adatokat a Hálóban az Azure Databricks használatával.