Использование Spark в Azure Synapse Analytics

Завершено

В Spark можно запускать самые разные приложения, в том числе код в скриптах Python или Scala, код Java, скомпилированный в виде архива Java (JAR), и т. д. Spark обычно используется в двух типах рабочих нагрузок.

  • Задания пакетной или потоковой обработки для приема, очистки и преобразования данных — часто выполняются как часть автоматизированного конвейера.
  • Интерактивные сеансы аналитики для изучения, анализа и визуализации данных.

Выполнение кода Spark в записных книжках

Azure Synapse Studio включает интегрированный интерфейс записной книжки для работы со Spark. Записные книжки предоставляют интуитивно понятный способ объединения кода с заметками Markdown, который часто используют специалисты по обработке и анализу данных. Внешний вид интегрированной записной книжки в Azure Synapse Studio аналогичен внешнему виду записных книжек Jupyter — популярной платформы записных книжек с открытым кодом.

Снимок экрана: записная книжка в Azure Synapse Studio.

Примечание.

Обычно записные книжки используются в интерактивном режиме, однако их можно включать в автоматизированные конвейеры и выполнять как автоматические скрипты.

Записные книжки состоят из одной или нескольких ячеек, каждая из которых содержит код или markdown. Ячейки кода в записных книжках имеют некоторые функции для повышения производительности, в том числе:

  • выделение синтаксиса и поддержка ошибок;
  • автоматическое выполнение кода;
  • интерактивные визуализации данных;
  • возможность экспорта результатов.

Совет

Чтобы подробнее узнать о работе с записными книжками в Azure Synapse Analytics, см. статью "Создание, разработка и поддержка записных книжек Synapse в Azure Synapse Analytics" в документации Azure Synapse Analytics.

Доступ к данным из пула Synapse Spark

Spark можно использовать в Azure Synapse Analytics для работы с данными из различных источников, в том числе:

  • озера данных на базе основной учетной записи хранения для рабочей области Azure Synapse Analytics;
  • Озеро данных на основе хранилища, определенного как связанная служба в рабочей области.
  • выделенного или бессерверного пула SQL в рабочей области;
  • базы данных Azure SQL или SQL Server (с помощью соединителя Spark для SQL Server);
  • Аналитическая база данных Azure Cosmos DB, определенная как связанная служба и настроенная с помощью Azure Synapse Link для Cosmos DB.
  • В рабочей области определена база данных Azure Data Explorer Kusto как связанная служба.
  • Внешнее хранилище метаданных Hive, определенное как связанная служба в рабочем пространстве.

Одним из наиболее распространенных вариантов использования Spark является работа с данными в озере данных, где можно читать и записывать файлы в различных распространенных форматах, включая текстовый файл с разделителями, Parquet, Avro и т. д.