Рекомендации по использованию Apache Spark

В этой статье приводятся различные рекомендации по использованию Apache Spark в Azure HDInsight.

Как правильно запускать или отправлять задания Spark?

Параметр Документы
VSCode Использование средств Spark и Hive для Visual Studio Code
Jupyter Notebook Руководство. Загрузка данных и выполнение запросов в кластере Apache Spark в Azure HDInsight
IntelliJ Руководство. Использование Azure Toolkit for IntelliJ для создания приложений Apache Spark для кластера HDInsight
IntelliJ Руководство. Создание приложения Scala Maven для Apache Spark в HDInsight с помощью IntelliJ
Записные книжки Zeppelin Use Apache Zeppelin notebooks with Apache Spark cluster on Azure HDInsight (Использование записных книжек Apache Zeppelin с кластером Apache Spark в Azure HDInsight)
Удаленная отправка заданий с помощью Livy Удаленная отправка заданий в кластер HDInsight Spark с помощью Apache Spark REST API
Apache Oozie Oozie — это система рабочих процессов и координации, управляющая заданиями Hadoop.
Apache Livy Вы можете использовать Livy для выполнения интерактивных оболочек Spark или отправки пакетных заданий для запуска в кластере Spark.
Фабрика данных Azure для Apache Spark Действие Spark в конвейере Фабрики данных выполняет программу Spark в вашем кластере HDInsight или в кластере HDInsight по запросу.
Фабрика данных Azure для Apache Hive Действие Hive HDInsight в конвейере Фабрики данных выполняет запросы Hive к вашему кластеру HDInsight или кластеру HDInsight по запросу.

Как выполнять мониторинг и отладку заданий Spark?

Параметр Документы
Azure Toolkit for IntelliJ Отладка сбоев в задании Spark с помощью Azure Toolkit for IntelliJ (предварительная версия)
Azure Toolkit for IntelliJ (через SSH) Удаленная или локальная отладка приложений Apache Spark в кластере HDInsight с помощью набора Azure Toolkit for IntelliJ через SSH
Azure Toolkit for IntelliJ (через VPN) Использование Azure набор средств для IntelliJ для удаленной отладки приложений Apache Spark в HDInsight через VPN
Граф заданий на сервере журнала Apache Spark Отладка и диагностика приложений Apache Spark с использованием расширенного сервера журнала Apache Spark

Как повысить эффективность выполнения заданий Spark?

Параметр Документы
Кэш операций ввода-вывода Повышение производительности рабочих нагрузок Apache Spark с помощью кэша ввода-вывода Azure HDInsight (предварительная версия)
Варианты конфигурации Оптимизация заданий Apache Spark

Как подключиться к другим службам Azure?

Параметр Документы
Apache Hive в HDInsight; Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector (Интеграция Apache Spark и Apache Hive с помощью соединителя хранилища Hive)
Apache HBase в HDInsight Чтение и запись данных Apache HBase с помощью Apache Spark
Apache Kafka в HDInsight Руководство. Использование структурированной потоковой передачи Apache Spark с Apache Kafka в HDInsight
Azure Cosmos DB Сведения об Azure Synapse Link для Azure Cosmos DB

Какие есть варианты хранилища?

Параметр Документы
Azure Data Lake Storage 2-го поколения Использование Azure Data Lake Storage Gen2 с кластерами Azure HDInsight
Хранилище Azure Data Lake Storage 1-го поколения Использование Azure Data Lake Storage 1-го поколения с кластерами Azure HDInsight
Хранилище BLOB-объектов Azure Использование службы хранилища Azure с кластерами Azure HDInsight

Следующие шаги