Интеграция OneLake с Azure Databricks

В этом сценарии показано, как подключиться к OneLake через Azure Databricks. После выполнения этого руководства вы сможете читать и записывать данные в Microsoft Fabric lakehouse из рабочей области Azure Databricks.

Необходимые компоненты

Перед подключением необходимо:

  • Рабочая область Fabric и lakehouse.
  • Рабочая область Azure Databricks уровня "Премиум". Только рабочие области Azure Databricks уровня "Премиум" поддерживают сквозное руководство учетных данных Microsoft Entra, которое требуется для этого сценария.

Настройка рабочей области Databricks

  1. Откройте рабочую область Azure Databricks и выберите "Создать>кластер".

  2. Чтобы выполнить проверку подлинности в OneLake с помощью удостоверения Microsoft Entra, необходимо включить сквозное руководство по учетным данным Azure Data Lake служба хранилища (ADLS) в кластере в разделе "Дополнительные параметры".

    Screenshot showing where to select Create cluster in the Advanced options screen.

    Примечание.

    Вы также можете подключить Databricks к OneLake с помощью субъекта-службы. Дополнительные сведения об аутентификации Azure Databricks с помощью субъекта-службы см. в статье "Управление субъектами-службами".

  3. Создайте кластер с предпочитаемыми параметрами. Дополнительные сведения о создании кластера Databricks см. в разделе "Настройка кластеров " Azure Databricks".

  4. Откройте записную книжку и подключите ее к созданному кластеру.

Создание записной книжки

  1. Перейдите к Azure Lakehouse и скопируйте путь к файловой системе BLOB-объектов Azure (ABFS) в озеро. Его можно найти в области "Свойства ".

    Примечание.

    Azure Databricks поддерживает только драйвер Файловой системы BLOB-объектов Azure (ABFS) при чтении и записи в ADLS 2-го поколения и OneLake: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/

  2. Сохраните путь к lakehouse в записной книжке Databricks. В этом лейкхаусе вы записываете обработанные данные позже:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Загрузите данные из общедоступного набора данных Databricks в кадр данных. Вы также можете прочитать файл из другого места в Fabric или выбрать файл из другой учетной записи ADLS 2-го поколения.

    yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Фильтрация, преобразование или подготовка данных. В этом сценарии можно обрезать набор данных для ускорения загрузки, объединения с другими наборами данных или фильтрации до определенных результатов.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Напишите отфильтрованный кадр данных в Azure Lakehouse с помощью пути OneLake.

    filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)
    
  6. Проверьте успешность записи данных, прочитав только что загруженный файл.

    lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath)
    display(lakehouseRead.limit(10))
    

Поздравляем. Теперь вы можете читать и записывать данные в Fabric с помощью Azure Databricks.