Выполнение инжиниринга данных с помощью пулов Apache Spark Azure Synapse

Средний уровень
Инженер по анализу и обработке данных
Azure Synapse Analytics

Apache Spark — это высокомасштабируемое распределенное решение для анализа больших данных и преобразования. Вы можете использовать свою мощность в Azure Synapse Analytics с помощью пулов Spark.

Предварительные требования

Перед началом работы с этой схемой обучения необходимо ознакомиться с Azure Synapse Analytics. Сначала рассмотрите возможность работы с модулем Azure Synapse Analytics .

Модули, включенные в эту схему обучения

Apache Spark — это основная технология для аналитики данных в большом масштабе. Узнайте, как использовать Spark в Azure Synapse Analytics для анализа и визуализации данных в озере.

Инженеры данных обычно нуждаются в преобразовании больших объемов данных. Пулы Apache Spark в Azure Synapse Analytics предоставляют распределенную платформу обработки, которую они могут использовать для достижения этой цели.

Delta Lake — это реляционная система хранения с открытым кодом для Spark, на основе которой можно реализовать архитектуру озера данных в Azure Synapse Analytics.