Введение

1 минута

Azure Databricks — это платформа с широкими возможностями масштабирования для анализа и обработки данных с использованием Apache Spark.

Гибкая платформа Spark поддерживает множество различных языков программирования и API-интерфейсов. Большинство задач обработки и аналитики данных можно выполнять с помощью API DataFrame, на котором мы и сосредоточимся в этом модуле.

В этом модуле рассматриваются следующие задачи:

описание ключевых элементов архитектуры Apache Spark;
создание и настройка кластера Spark;
описание вариантов использования Spark;
использование Spark для обработки и анализа хранимых данных в файлах;
визуализация данных с помощью Spark.

Продолжить

Обратная связь