Использование Spark в Azure Synapse Analytics

3 мин

В Spark можно запускать самые разные приложения, в том числе код в скриптах Python или Scala, код Java, скомпилированный в виде архива Java (JAR), и т. д. Spark обычно используется в двух типах рабочих нагрузок.

Задания пакетной или потоковой обработки для приема, очистки и преобразования данных — часто выполняются как часть автоматизированного конвейера.
Интерактивные сеансы аналитики для изучения, анализа и визуализации данных.

Выполнение кода Spark в записных книжках

Azure Synapse Studio включает интегрированный интерфейс записной книжки для работы со Spark. Записные книжки предоставляют интуитивно понятный способ объединения кода с заметками Markdown, который часто используют специалисты по обработке и анализу данных. Внешний вид интегрированной записной книжки в Azure Synapse Studio аналогичен внешнему виду записных книжек Jupyter — популярной платформы записных книжек с открытым кодом.

Снимок экрана: записная книжка в Azure Synapse Studio.

Примечание.

Обычно записные книжки используются в интерактивном режиме, однако их можно включать в автоматизированные конвейеры и выполнять как автоматические скрипты.

Записные книжки состоят из одной или нескольких ячеек, каждая из которых содержит код или markdown. Ячейки кода в записных книжках имеют некоторые функции для повышения производительности, в том числе:

выделение синтаксиса и поддержка ошибок;
автоматическое выполнение кода;
интерактивные визуализации данных;
возможность экспорта результатов.

Совет

Чтобы подробнее узнать о работе с записными книжками в Azure Synapse Analytics, см. статью "Создание, разработка и поддержка записных книжек Synapse в Azure Synapse Analytics" в документации Azure Synapse Analytics.

Доступ к данным из пула Synapse Spark

Spark можно использовать в Azure Synapse Analytics для работы с данными из различных источников, в том числе:

озера данных на базе основной учетной записи хранения для рабочей области Azure Synapse Analytics;
Озеро данных на основе хранилища, определенного как связанная служба в рабочей области.
выделенного или бессерверного пула SQL в рабочей области;
базы данных Azure SQL или SQL Server (с помощью соединителя Spark для SQL Server);
Аналитическая база данных Azure Cosmos DB, определенная как связанная служба и настроенная с помощью Azure Synapse Link для Cosmos DB.
В рабочей области определена база данных Azure Data Explorer Kusto как связанная служба.
Внешнее хранилище метаданных Hive, определенное как связанная служба в рабочем пространстве.

Одним из наиболее распространенных вариантов использования Spark является работа с данными в озере данных, где можно читать и записывать файлы в различных распространенных форматах, включая текстовый файл с разделителями, Parquet, Avro и т. д.

Использование Spark в Azure Synapse Analytics

Выполнение кода Spark в записных книжках

Доступ к данным из пула Synapse Spark

Обратная связь