Introducción

Completado

Apache Spark es un marco de procesamiento paralelo de código abierto para el procesamiento y el análisis de datos a gran escala. Spark se ha vuelto extremadamente popular en escenarios de procesamiento de "macrodatos" y está disponible en varias implementaciones de plataforma; incluidos Azure HDInsight, Azure Databricks y Azure Synapse Analytics.

En este módulo se explora cómo puede usar Spark en Azure Synapse Analytics para ingerir, procesar y analizar datos de un lago de datos. Aunque las técnicas principales y el código descritos en este módulo son comunes a todas las implementaciones de Spark, las herramientas integradas y la capacidad de trabajar con Spark en el mismo entorno que otros entornos de ejecución analíticos de Synapse son específicas de Azure Synapse Analytics.

Después de completar este módulo, podrá:

  • Identificar las características y las funciones principales de Apache Spark.
  • Configurar un grupo de Spark en Azure Synapse Analytics.
  • Ejecutar código para cargar, analizar y visualizar datos en un cuaderno de Spark.