Использование Spark в Azure Synapse Analytics
В Spark можно запускать самые разные приложения, в том числе код в скриптах Python или Scala, код Java, скомпилированный в виде архива Java (JAR), и т. д. Spark обычно используется в двух типах рабочих нагрузок.
- Задания пакетной или потоковой обработки для приема, очистки и преобразования данных — часто выполняются как часть автоматизированного конвейера.
- Интерактивные сеансы аналитики для изучения, анализа и визуализации данных.
Выполнение кода Spark в записных книжках
Azure Synapse Studio включает интегрированный интерфейс записной книжки для работы со Spark. Записные книжки предоставляют интуитивно понятный способ объединения кода с заметками Markdown, который часто используют специалисты по обработке и анализу данных. Внешний вид интегрированной записной книжки в Azure Synapse Studio аналогичен внешнему виду записных книжек Jupyter — популярной платформы записных книжек с открытым кодом.
Примечание.
Обычно записные книжки используются в интерактивном режиме, однако их можно включать в автоматизированные конвейеры и выполнять как автоматические скрипты.
Записные книжки состоят из одной или нескольких ячеек, каждая из которых содержит код или markdown. Ячейки кода в записных книжках имеют некоторые функции для повышения производительности, в том числе:
- выделение синтаксиса и поддержка ошибок;
- автоматическое выполнение кода;
- интерактивные визуализации данных;
- возможность экспорта результатов.
Совет
Чтобы подробнее узнать о работе с записными книжками в Azure Synapse Analytics, см. статью "Создание, разработка и поддержка записных книжек Synapse в Azure Synapse Analytics" в документации Azure Synapse Analytics.
Доступ к данным из пула Synapse Spark
Spark можно использовать в Azure Synapse Analytics для работы с данными из различных источников, в том числе:
- озера данных на базе основной учетной записи хранения для рабочей области Azure Synapse Analytics;
- Озеро данных на основе хранилища, определенного как связанная служба в рабочей области.
- выделенного или бессерверного пула SQL в рабочей области;
- базы данных Azure SQL или SQL Server (с помощью соединителя Spark для SQL Server);
- Аналитическая база данных Azure Cosmos DB, определенная как связанная служба и настроенная с помощью Azure Synapse Link для Cosmos DB.
- В рабочей области определена база данных Azure Data Explorer Kusto как связанная служба.
- Внешнее хранилище метаданных Hive, определенное как связанная служба в рабочем пространстве.
Одним из наиболее распространенных вариантов использования Spark является работа с данными в озере данных, где можно читать и записывать файлы в различных распространенных форматах, включая текстовый файл с разделителями, Parquet, Avro и т. д.