Введение
Apache Spark — это платформа параллельной обработки для крупномасштабной обработки данных и аналитики с открытым кодом. Spark стала чрезвычайно популярной в сценариях обработки больших данных и доступна в нескольких реализациях платформы; включая Azure HDInsight, Azure Databricks и аналитику Azure Synapse.
В этом модуле рассматривается, как использовать Spark в Azure Synapse Analytics для приема, обработки и анализа данных из озера данных. Хотя основные методы и код, описанные в этом модуле, являются общими для всех реализаций Spark, интегрированные средства и возможность работать с Spark в той же среде, что и другие аналитические среды Synapse, относятся к Azure Synapse Analytics.
По завершении этого модуля вы сможете:
- Определение основных функций и возможностей Apache Spark.
- Настройка пула Spark в Azure Synapse Analytics.
- Запуск кода для загрузки, анализа и визуализации данных в записной книжке Spark.