Введение

1 минута

Apache Spark — это платформа параллельной обработки для крупномасштабной обработки данных и аналитики с открытым кодом. Spark стала чрезвычайно популярной в сценариях обработки больших данных и доступна в нескольких реализациях платформы; включая Azure HDInsight, Azure Databricks и аналитику Azure Synapse.

В этом модуле рассматривается, как использовать Spark в Azure Synapse Analytics для приема, обработки и анализа данных из озера данных. Хотя основные методы и код, описанные в этом модуле, являются общими для всех реализаций Spark, интегрированные средства и возможность работать с Spark в той же среде, что и другие аналитические среды Synapse, относятся к Azure Synapse Analytics.

По завершении этого модуля вы сможете:

Определение основных функций и возможностей Apache Spark.
Настройка пула Spark в Azure Synapse Analytics.
Запуск кода для загрузки, анализа и визуализации данных в записной книжке Spark.

Введение

Обратная связь