Интеграция OneLake с Azure Databricks
Важно!
Microsoft Fabric в настоящее время находится на этапе предварительной версии. Эта информация относится к предварительной версии продукта, который может быть существенно изменен перед выпуском. Корпорация Майкрософт не дает никаких гарантий, явных или подразумеваемых, в отношении информации, представленной здесь.
В этом сценарии показано, как подключиться к OneLake через Azure Databricks. После завершения работы с этим руководством вы сможете выполнять чтение и запись в Microsoft Fabric Lakehouse из рабочей области Azure Databricks.
Предварительные требования
Перед подключением выполните следующие действия.
- Рабочая область Fabric и lakehouse.
- Рабочая область Azure Databricks уровня "Премиум". Только рабочие области Azure Databricks уровня "Премиум" поддерживают Microsoft Azure Active Directory сквозную передачу учетных данных, которая требуется для этого сценария.
Настройка рабочей области Databricks
Откройте рабочую область Azure Databricks и выберите Создать>кластер.
Чтобы пройти проверку подлинности в OneLake с помощью удостоверения Azure AD, необходимо включить Azure Data Lake Storage сквозную передачу учетных данных в кластере в разделе Дополнительные параметры.
Примечание
Вы также можете подключить Databricks к OneLake с помощью субъекта-службы. Дополнительные сведения о проверке подлинности Azure Databricks с помощью субъекта-службы см. в статье Субъекты-службы для автоматизации Azure Databricks.
Создайте кластер с предпочитаемыми параметрами. Дополнительные сведения о создании кластера Databricks см. в статье Настройка кластеров — Azure Databricks.
Откройте записную книжку и подключите ее к только что созданному кластеру.
Создание записной книжки
Перейдите к структуре lakehouse и скопируйте путь ABFS в хранилище озера. Его можно найти в области Свойства .
Примечание
Azure Databricks поддерживает только драйвер файловой системы BLOB-объектов Azure (ABFS) при чтении и записи в Azure Data Lake Storage (ADLS) 2-го поколения и OneLake: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/
Сохраните путь к lakehouse в записной книжке Databricks. В этом lakehouse вы будете записывать обработанные данные позже:
oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
Загрузка данных из общедоступного набора данных Databricks в кадр данных. Вы также можете прочитать файл из другого места в Fabric или выбрать файл из другой учетной записи ADLS 2-го поколения, у вас уже есть.
yellowTaxiDF = (spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
Фильтрация, преобразование или подготовка данных. В этом сценарии можно обрезать набор данных, чтобы ускорить загрузку, объединить с другими наборами данных или выполнить фильтрацию по определенным результатам.
filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4) display(filteredTaxiDF)
Запишите отфильтрованный кадр данных в Fabric Lakehouse с помощью пути OneLake.
filteredTaxiDF.write.format("csv").mode("overwrite").csv(oneLakePath)
Проверьте успешность записи данных, прочитав недавно загруженный файл.
lakehouseRead = spark.read.format('csv').load(oneLakePath) display(lakehouseRead.limit(10))
Поздравляем! Теперь вы можете читать и записывать данные в Fabric с помощью Azure Databricks.