Использование Apache Spark в Azure Databricks

Средний уровень
Инженер по анализу и обработке данных
Azure Databricks

Платформа Azure Databricks основана на Apache Spark и позволяет инженерам и аналитикам запускать задания Spark для преобразования, анализа и визуализации данных в большом масштабе.

Цели обучения

В этом модуле рассматриваются следующие задачи:

  • описание ключевых элементов архитектуры Apache Spark;
  • создание и настройка кластера Spark;
  • описание вариантов использования Spark;
  • использование Spark для обработки и анализа хранимых данных в файлах;
  • визуализация данных с помощью Spark.

Предварительные требования

Для прохождения этого модуля вы должны понимать основные принципы работы Azure Databricks. Прежде чем использовать этот модуль, рассмотрите возможность изучения модуля Azure Databricks .