Integrace OneLake s Azure Databricks

Důležité

Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžné verze produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, vyjádřené ani předpokládané.

Tento scénář ukazuje, jak se připojit k OneLake přes Azure Databricks. Po dokončení tohoto kurzu budete moct číst a zapisovat do Microsoft Fabric Lakehouse z pracovního prostoru Azure Databricks.

Požadavky

Před připojením proveďte tyto kroky:

  • Pracovní prostor Prostředky infrastruktury a lakehouse.
  • Prémiový pracovní prostor Azure Databricks. Předávání přihlašovacích údajů Microsoft Azure Active Directory podporují pouze prémiové pracovní prostory Azure Databricks, které se v tomto scénáři vyžadují.

Nastavení pracovního prostoru Databricks

  1. Otevřete pracovní prostor Azure Databricks a vyberte Vytvořit>cluster.

  2. Pokud se chcete ověřit ve službě OneLake pomocí Azure AD identity, musíte v clusteru povolit předávání přihlašovacích údajů Azure Data Lake Storage v části Upřesnit možnosti.

    Snímek obrazovky znázorňující, kde na obrazovce Upřesnit možnosti vybrat Vytvořit cluster

    Poznámka

    Databricks můžete k OneLake připojit také pomocí instančního objektu. Další informace o ověřování Azure Databricks pomocí instančního objektu najdete v tématu Instanční objekty pro automatizaci Azure Databricks.

  3. Vytvořte cluster s upřednostňovanými parametry. Další informace o vytvoření clusteru Databricks najdete v tématu Konfigurace clusterů – Azure Databricks.

  4. Otevřete poznámkový blok a připojte ho k nově vytvořenému clusteru.

Vytvoření poznámkového bloku

  1. Přejděte do svého fabric lakehouse a zkopírujte cestu ABFS do lakehouse. Najdete ho v podokně Vlastnosti .

    Poznámka

    Azure Databricks při čtení a zápisu do Azure Data Lake Storage (ADLS) Gen2 a OneLake podporuje pouze ovladač AbFS (Azure Blob FileSystem): abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/

  2. Uložte cestu k lakehouse v poznámkovém bloku Databricks. V tomto lakehouse si později zapíšete zpracovaná data:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Načtěte data z veřejné datové sady Databricks do datového rámce. Soubor můžete také číst odjinud v prostředcích infrastruktury nebo zvolit soubor z jiného účtu ADLS Gen2, který už vlastníte.

    yellowTaxiDF = (spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Data můžete filtrovat, transformovat nebo připravit. V tomto scénáři můžete datovou sadu zkrátit, aby se zrychlilo načítání, spojit se s jinými datovými sadami nebo vyfiltrovat konkrétní výsledky.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Napište filtrovaný datový rámec do fabric Lakehouse pomocí cesty OneLake.

    filteredTaxiDF.write.format("csv").mode("overwrite").csv(oneLakePath)
    
  6. Čtením nově načteného souboru otestujte, že se data úspěšně zapíšou.

    lakehouseRead = spark.read.format('csv').load(oneLakePath)
    display(lakehouseRead.limit(10))
    

Gratulujeme! Teď můžete číst a zapisovat data v prostředcích infrastruktury pomocí Azure Databricks.

Další kroky