Интеграция OneLake с Azure Synapse Analytics
Azure Synapse — это служба аналитики без ограничений, которая объединяет корпоративные хранилища данных и аналитику больших данных. В этом руководстве показано, как подключиться к OneLake с помощью Azure Synapse Analytics.
Важно!
Microsoft Fabric находится в предварительной версии.
Запись данных из Synapse с помощью Apache Spark
Выполните следующие действия, чтобы использовать Apache Spark для записи примеров данных в OneLake из Azure Synapse Analytics.
Откройте рабочую область Synapse и создайте пул Apache Spark с предпочитаемыми параметрами.
Создайте записную книжку Apache Spark.
Откройте записную книжку, задайте язык PySpark (Python) и подключите его к созданному пулу Spark.
На отдельной вкладке перейдите к microsoft Fabric lakehouse и найдите папку верхнего уровня Таблицы .
Щелкните правой кнопкой мыши папку Таблицы и выберите свойства.
Скопируйте путь ABFS из области свойств.
Вернитесь в записную книжку Azure Synapse в первой новой ячейке кода укажите путь к lakehouse. Это место, где ваши данные будут записаны позже. Запустите ячейку.
# Replace the path below with the ABFS path to your lakehouse Tables folder. oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
В новой ячейке кода загрузите данные из открытого набора данных Azure в кадр данных. Это набор данных, который вы будете загружать в lakehouse. Запустите ячейку.
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet') display(yellowTaxiDf.limit(10))
В новой ячейке кода выполните фильтрацию, преобразование или подготовку данных. В этом сценарии можно сократить набор данных, чтобы ускорить загрузку, объединить с другими наборами данных или выполнить фильтрацию по определенным результатам. Запустите ячейку.
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1) display(filteredTaxiDf.limit(10))
В новой ячейке кода, используя путь OneLake, запишите отфильтрованный кадр данных в новую таблицу Delta-Parquet в хранилище озера Fabric. Запустите ячейку.
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
Наконец, в новой ячейке кода проверьте, успешно ли записаны данные, считывая только что загруженный файл из OneLake. Запустите ячейку.
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/') display(lakehouseRead.limit(10))
Поздравляем! Теперь вы можете читать и записывать данные в OneLake с помощью Apache Spark в Azure Synapse Analytics.
Запись данных из Synapse с помощью SQL
Выполните следующие действия, чтобы использовать бессерверный SQL для чтения данных из OneLake из Azure Synapse Analytics.
Откройте lakehouse Fabric и определите таблицу, которую вы хотите запросить из Synapse.
Щелкните таблицу правой кнопкой мыши и выберите пункт Свойства.
Скопируйте путь ABFS для таблицы.
Откройте рабочую область Synapse в Synapse Studio.
Создайте новый скрипт SQL.
В редакторе SQL-запросов введите следующий запрос, заменив
ABFS_PATH_HERE
скопированным ранее путем.SELECT TOP 10 * FROM OPENROWSET( BULK 'ABFS_PATH_HERE', FORMAT = 'delta') as rows;
Выполните запрос, чтобы просмотреть первые 10 строк таблицы.
Поздравляем! Теперь вы можете считывать данные из OneLake с помощью бессерверного SQL в Azure Synapse Analytics.