Integrera OneLake med Azure Databricks

Viktigt

Microsoft Fabric är en förhandsversion.

Det här scenariot visar hur du ansluter till OneLake via Azure Databricks. När du har slutfört den här självstudien kan du läsa och skriva till en Microsoft Fabric Lakehouse från din Azure Databricks-arbetsyta.

Förutsättningar

Slutför följande steg innan du ansluter:

  • En Fabric-arbetsyta och lakehouse.
  • En Premium Azure Databricks-arbetsyta. Endast Premium Azure Databricks-arbetsytor stöder Microsoft Azure Active Directory genomströmning av autentiseringsuppgifter, vilket krävs för det här scenariot.

Konfigurera databricks-arbetsytan

  1. Öppna din Azure Databricks-arbetsyta och välj Skapa>kluster.

  2. Om du vill autentisera till OneLake med din Azure AD identitet måste du aktivera Azure Data Lake Storage genomströmning av autentiseringsuppgifter i klustret i Avancerade alternativ.

    Skärmbild som visar var du väljer Skapa kluster på skärmen Avancerade alternativ.

    Anteckning

    Du kan också ansluta Databricks till OneLake med hjälp av tjänstens huvudnamn. Mer information om hur du autentiserar Azure Databricks med ett huvudnamn för tjänsten finns i Tjänstens huvudnamn för Azure Databricks-automatisering.

  3. Skapa klustret med önskade parametrar. Mer information om hur du skapar ett Databricks-kluster finns i Konfigurera kluster – Azure Databricks.

  4. Öppna en notebook-fil och anslut den till det nyligen skapade klustret.

Skapa anteckningsboken

  1. Gå till din Fabric lakehouse och kopiera ABFS-vägen till ditt sjöhus. Du hittar den i fönstret Egenskaper .

    Anteckning

    Azure Databricks stöder endast ABFS-drivrutinen (Azure Blob Filesystem) när du läser och skriver till Azure Data Lake Storage (ADLS) Gen2 och OneLake: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/

  2. Spara sökvägen till ditt lakehouse i din Databricks-anteckningsbok. I det här lakehouse-huset skriver du dina bearbetade data senare:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Läs in data från en offentlig Databricks-datauppsättning till en dataram. Du kan också läsa en fil någon annanstans i Infrastruktur eller välja en fil från ett annat ADLS Gen2-konto som du redan äger.

    yellowTaxiDF = (spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Filtrera, transformera eller förbereda dina data. I det här scenariot kan du trimma datauppsättningen för snabbare inläsning, ansluta till andra datauppsättningar eller filtrera ned till specifika resultat.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Skriv din filtrerade dataram till Fabric Lakehouse med din OneLake-sökväg.

    filteredTaxiDF.write.format("csv").mode("overwrite").csv(oneLakePath)
    
  6. Testa att dina data har skrivits genom att läsa den nyligen inlästa filen.

    lakehouseRead = spark.read.format('csv').load(oneLakePath)
    display(lakehouseRead.limit(10))
    

Grattis! Nu kan du läsa och skriva data i Fabric med hjälp av Azure Databricks.

Nästa steg