Рекомендации по использованию Apache Spark

Статья
07/12/2023

В этой статье приводятся различные рекомендации по использованию Apache Spark в Azure HDInsight.

Как правильно запускать или отправлять задания Spark?

Параметр	Документы
VSCode	Использование средств Spark и Hive для Visual Studio Code
Jupyter Notebook	Руководство. Загрузка данных и выполнение запросов в кластере Apache Spark в Azure HDInsight
IntelliJ	Руководство. Использование Azure Toolkit for IntelliJ для создания приложений Apache Spark для кластера HDInsight
IntelliJ	Руководство. Создание приложения Scala Maven для Apache Spark в HDInsight с помощью IntelliJ
Записные книжки Zeppelin	Use Apache Zeppelin notebooks with Apache Spark cluster on Azure HDInsight (Использование записных книжек Apache Zeppelin с кластером Apache Spark в Azure HDInsight)
Удаленная отправка заданий с помощью Livy	Удаленная отправка заданий в кластер HDInsight Spark с помощью Apache Spark REST API
Apache Oozie	Oozie — это система рабочих процессов и координации, управляющая заданиями Hadoop.
Apache Livy	Вы можете использовать Livy для выполнения интерактивных оболочек Spark или отправки пакетных заданий для запуска в кластере Spark.
Фабрика данных Azure для Apache Spark	Действие Spark в конвейере Фабрики данных выполняет программу Spark в вашем кластере HDInsight или в кластере HDInsight по запросу.
Фабрика данных Azure для Apache Hive	Действие Hive HDInsight в конвейере Фабрики данных выполняет запросы Hive к вашему кластеру HDInsight или кластеру HDInsight по запросу.

Как выполнять мониторинг и отладку заданий Spark?

Параметр	Документы
Azure Toolkit for IntelliJ	Отладка сбоев в задании Spark с помощью Azure Toolkit for IntelliJ (предварительная версия)
Azure Toolkit for IntelliJ (через SSH)	Удаленная или локальная отладка приложений Apache Spark в кластере HDInsight с помощью набора Azure Toolkit for IntelliJ через SSH
Azure Toolkit for IntelliJ (через VPN)	Использование Azure набор средств для IntelliJ для удаленной отладки приложений Apache Spark в HDInsight через VPN
Граф заданий на сервере журнала Apache Spark	Отладка и диагностика приложений Apache Spark с использованием расширенного сервера журнала Apache Spark

Как повысить эффективность выполнения заданий Spark?

Параметр	Документы
Кэш операций ввода-вывода	Повышение производительности рабочих нагрузок Apache Spark с помощью кэша ввода-вывода Azure HDInsight (предварительная версия)
Варианты конфигурации	Оптимизация заданий Apache Spark

Как подключиться к другим службам Azure?

Параметр	Документы
Apache Hive в HDInsight;	Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector (Интеграция Apache Spark и Apache Hive с помощью соединителя хранилища Hive)
Apache HBase в HDInsight	Чтение и запись данных Apache HBase с помощью Apache Spark
Apache Kafka в HDInsight	Руководство. Использование структурированной потоковой передачи Apache Spark с Apache Kafka в HDInsight
Azure Cosmos DB	Сведения об Azure Synapse Link для Azure Cosmos DB

Какие есть варианты хранилища?

Параметр	Документы
Azure Data Lake Storage 2-го поколения	Использование Azure Data Lake Storage Gen2 с кластерами Azure HDInsight
Хранилище Azure Data Lake Storage 1-го поколения	Использование Azure Data Lake Storage 1-го поколения с кластерами Azure HDInsight
Хранилище BLOB-объектов Azure	Использование службы хранилища Azure с кластерами Azure HDInsight

Следующие шаги

Обратная связь

Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделе https://aka.ms/ContentUserFeedback.

Отправить и просмотреть отзыв по

Этот продукт Эта страница

Просмотреть все отзывы по странице