A OneLake integrálása az Azure Databricks szolgáltatással

Fontos

A Microsoft Fabric előzetes verzióban érhető el.

Ez a forgatókönyv bemutatja, hogyan csatlakozhat a OneLake-hoz az Azure Databricksen keresztül. Az oktatóanyag elvégzése után az Azure Databricks-munkaterületről olvashat és írhat egy Microsoft Fabric Lakehouse-ba.

Előfeltételek

Csatlakozás előtt végezze el az alábbi lépéseket:

  • Háló munkaterület és tótárház.
  • Prémium Szintű Azure Databricks-munkaterület. Ehhez a forgatókönyvhöz csak a prémium Szintű Azure Databricks-munkaterületek támogatják Microsoft Azure Active Directory hitelesítő adatok átengedését.

A Databricks-munkaterület beállítása

  1. Nyissa meg az Azure Databricks-munkaterületet, és válassza aFürtlétrehozása> lehetőséget.

  2. Ha az Azure AD identitásával szeretne hitelesítést végezni a OneLake-ben, engedélyeznie kell Azure Data Lake Storage hitelesítő adatok átengedése a fürtön a Speciális beállítások területen.

    Képernyőkép arról, hogy hol válassza a Fürt létrehozása lehetőséget a Speciális beállítások képernyőn.

    Megjegyzés

    A Databrickset szolgáltatásnévvel is csatlakoztathatja a OneLake-hoz. További információ az Azure Databricks szolgáltatásnévvel történő hitelesítéséről: Szolgáltatásnevek az Azure Databricks automatizálásához.

  3. Hozza létre a fürtöt az előnyben részesített paraméterekkel. További információ a Databricks-fürtök létrehozásáról: Fürtök konfigurálása – Azure Databricks.

  4. Nyisson meg egy jegyzetfüzetet, és csatlakoztassa az újonnan létrehozott fürthöz.

A jegyzetfüzet létrehozása

  1. Lépjen a Háló-tóházra, és másolja az ABFS elérési útját a tóházba. A tulajdonságokat a Tulajdonságok panelen találja.

    Megjegyzés

    Az Azure Databricks csak akkor támogatja az Azure Blob Filesystem (ABFS) illesztőprogramot, ha Azure Data Lake Storage (ADLS) Gen2-be és OneLake-be ír: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/

  2. Mentse a tóház elérési útját a Databricks-jegyzetfüzetben. A feldolgozott adatokat később ebben a tótárházban fogja megírni:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Adatok betöltése a Databricks nyilvános adatkészletéből egy adatkeretbe. A Háló más részein is olvashat fájlokat, vagy kiválaszthat egy fájlt egy másik, már meglévő ADLS Gen2-fiókból.

    yellowTaxiDF = (spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Szűrheti, átalakíthatja vagy előkészítheti az adatokat. Ebben a forgatókönyvben levághatja az adathalmazt a gyorsabb betöltéshez, más adathalmazokhoz való csatlakozáshoz, vagy adott eredményekre szűrhet.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Írja be a szűrt adatkeretet a Fabric Lakehouse-ba a OneLake elérési útján.

    filteredTaxiDF.write.format("csv").mode("overwrite").csv(oneLakePath)
    
  6. Az újonnan betöltött fájl olvasásával tesztelje, hogy az adatok sikeresen meg vannak-e írva.

    lakehouseRead = spark.read.format('csv').load(oneLakePath)
    display(lakehouseRead.limit(10))
    

Gratulálunk! Most már olvashat és írhat adatokat a Hálóban az Azure Databricks használatával.

Következő lépések