A OneLake integrálása az Azure Databricks szolgáltatással

Ez a forgatókönyv bemutatja, hogyan csatlakozhat a OneLake-hez az Azure Databricksen keresztül. Az oktatóanyag elvégzése után az Azure Databricks-munkaterületről olvashat és írhat egy Microsoft Fabric lakehouse-ba.

Előfeltételek

A csatlakozás előtt a következő eszközökre van szüksége:

  • Háló munkaterület és tóház.
  • Prémium Szintű Azure Databricks-munkaterület. Csak a prémium Szintű Azure Databricks-munkaterületek támogatják a Microsoft Entra hitelesítő adatok átadását, amelyre ebben a forgatókönyvben szüksége van.

A Databricks-munkaterület beállítása

  1. Nyissa meg az Azure Databricks-munkaterületet, és válassza a Fürt létrehozása lehetőséget>.

  2. A OneLake-ben a Microsoft Entra-identitással való hitelesítéshez engedélyeznie kell az Azure Data Lake Storage (ADLS) hitelesítő adatok átadását a fürtön a Speciális beállítások területen.

    Screenshot showing where to select Create cluster in the Advanced options screen.

    Feljegyzés

    A Databrickset egy szolgáltatásnévvel is csatlakoztathatja a OneLake-hez. További információ az Azure Databricks szolgáltatásnévvel történő hitelesítéséről: Szolgáltatásnevek kezelése.

  3. Hozza létre a fürtöt az előnyben részesített paraméterekkel. A Databricks-fürtök létrehozásáról további információt a Fürtök konfigurálása – Azure Databricks című témakörben talál.

  4. Nyisson meg egy jegyzetfüzetet, és csatlakoztassa az újonnan létrehozott fürthöz.

Jegyzetfüzet létrehozása

  1. Lépjen a Fabric lakehouse-hoz, és másolja az Azure Blob Filesystem (ABFS) elérési útját a tóházba. A Tulajdonságok panelen található.

    Feljegyzés

    Az Azure Databricks csak az Azure Blob Filesystem (ABFS) illesztőprogramot támogatja az ADLS Gen2 és a OneLake felé történő olvasáskor és íráskor: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/.

  2. Mentse a lakehouse elérési útját a Databricks-jegyzetfüzetben. Ebben a lakehouse-ben írhatja meg a feldolgozott adatokat később:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Adatok betöltése a Databricks nyilvános adatkészletéből egy adatkeretbe. A Fabric más részein is elolvashat egy fájlt, vagy kiválaszthat egy fájlt egy másik, már meglévő ADLS Gen2-fiókból.

    yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Szűrheti, átalakíthatja vagy előkészítheti az adatokat. Ebben a forgatókönyvben levághatja az adathalmazt a gyorsabb betöltéshez, más adatkészletekhez való csatlakozáshoz vagy adott eredményekre való szűréshez.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Írja be a szűrt adatkeretet a Fabric lakehouse-ba a OneLake elérési útján.

    filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)
    
  6. Tesztelje, hogy az adatok sikeresen meg vannak-e írva az újonnan betöltött fájl olvasásával.

    lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath)
    display(lakehouseRead.limit(10))
    

Gratulálunk! Mostantól az Azure Databricks használatával is olvashat és írhat adatokat a Fabricben.