Введение

Завершено

Azure Databricks — это платформа с широкими возможностями масштабирования для анализа и обработки данных с использованием Apache Spark.

Гибкая платформа Spark поддерживает множество различных языков программирования и API-интерфейсов. Большинство задач обработки и аналитики данных можно выполнять с помощью API DataFrame, на котором мы и сосредоточимся в этом модуле.

В этом модуле рассматриваются следующие задачи:

  • описание ключевых элементов архитектуры Apache Spark;
  • создание и настройка кластера Spark;
  • описание вариантов использования Spark;
  • использование Spark для обработки и анализа хранимых данных в файлах;
  • визуализация данных с помощью Spark.