Uso de Spark en Azure Synapse Analytics

Completado

Puede ejecutar muchos tipos diferentes de aplicaciones en Spark, incluido código en scripts de Python o Scala, código de Java compilado como un archivo Java (JAR) y otros. Spark se usa normalmente en dos tipos de cargas de trabajo:

  • Trabajos de procesamiento por lotes o flujos para ingerir, limpiar y transformar datos, que a menudo se ejecutan como parte de una canalización automatizada.
  • Sesiones de análisis interactivas para explorar, analizar y visualizar datos.

Ejecución de código de Spark en cuadernos

Azure Synapse Studio incluye una interfaz de cuaderno integrada para trabajar con Spark. Los cuadernos proporcionan una manera intuitiva de combinar código con notas de Markdown, que suelen usar los científicos de datos y los analistas de datos. El aspecto de la experiencia de cuadernos integrada en Azure Synapse Studio es muy parecida a la de los cuadernos de Jupyter Notebook: un plataforma popular de cuadernos de código abierto.

A screenshot of a notebook in Azure Synapse Studio.

Nota:

Aunque normalmente se usan de forma interactiva, los cuadernos se pueden incluir en canalizaciones automatizadas y ejecutarse como un script desatendido.

Los cuadernos constan de una o varias celdas, y cada una contiene código o Markdown. Las celdas de código de los cuadernos tienen algunas características que pueden ayudarle a ser más productivo, incluidas las siguientes:

  • Resaltado de sintaxis y compatibilidad con errores.
  • Finalización automática del código.
  • Visualización de datos interactivos.
  • Posibilidad de exportar los resultados.

Sugerencia

Para más información sobre cómo trabajar con cuadernos en Azure Synapse Analytics, vea el artículo Creación, desarrollo y mantenimiento de cuadernos de Synapse en Azure Synapse Analytics en la documentación de Azure Synapse Analytics.

Acceso a datos desde un grupo de Spark de Synapse

Puede usar Spark en Azure Synapse Analytics para trabajar con datos de varios orígenes, incluidos los siguientes:

  • Un lago de datos basado en la cuenta de almacenamiento principal del área de trabajo de Azure Synapse Analytics.
  • Un lago de datos basado en el almacenamiento definido como un servicio vinculado en el área de trabajo.
  • Un grupo de SQL dedicado o sin servidor en el área de trabajo.
  • Una base de datos de Azure SQL o SQL Server (mediante el conector de Spark para SQL Server)
  • Una base de datos analítica de Azure Cosmos DB definida como un servicio vinculado y configurada mediante Azure Synapse Link para Cosmos DB.
  • Una base de datos Kusto de Azure Data Explorer definida como un servicio vinculado en el área de trabajo.
  • Un metastore de Hive externo definido como un servicio vinculado en el área de trabajo.

Uno de los usos más comunes de Spark es trabajar con datos en un lago de datos, donde puede leer y escribir archivos en varios formatos de uso frecuente, incluido texto delimitado, Parquet, Avro y otros.