Instrucciones de Apache Spark

Artículo
28/02/2025

En este artículo se proporcionan instrucciones para usar Apache Spark en Azure HDInsight.

¿Cómo se ejecutan o envían los trabajos de Spark?

Opción	Documentos
Visual Studio Code	Usar las herramientas Spark y Hive para Visual Studio Code
Cuadernos de Jupyter Notebook	Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight
IntelliJ	Tutorial: Uso de Azure Toolkit for IntelliJ con el fin de crear aplicaciones Apache Spark para un clúster de HDInsight
IntelliJ	Tutorial: Creación de una aplicación de Scala Maven para Apache Spark en HDInsight mediante IntelliJ
Zeppelin Notebooks	Uso de cuadernos de Apache Zeppelin con un clúster Apache Spark en Azure HDInsight
Envío de trabajos remotos con Livy	Uso de la API REST de Apache Spark para enviar trabajos remotos a un clúster Spark de HDInsight
Apache Oozie	Oozie es un sistema de coordinación y flujos de trabajo que administra trabajos de Hadoop.
Apache Livy	Puede usar Livy para ejecutar shells de Spark interactivos o enviar trabajos por lotes que se ejecutarán en Spark.
Azure Data Factory para Apache Spark	La actividad de Spark en una canalización de Data Factory ejecuta un programa de Spark en su clúster de HDInsight propio o [a petición.
Azure Data Factory para Apache Hive	La actividad de Hive de HDInsight en una canalización de Data Factory ejecuta consultas de Hive en su propio clúster de HDInsight o en uno a petición.

¿Cómo se supervisan y depuran los trabajos de Spark?

Opción	Documentos
Kit de herramientas de Azure para IntelliJ	Error de depuración de trabajos de Spark con Azure Toolkit for IntelliJ (versión preliminar)
Azure Toolkit for IntelliJ a través de SSH	Depuración de aplicaciones de Apache Spark de forma local o remota en un clúster de HDInsight con Azure Toolkit for IntelliJ mediante SSH
Azure Toolkit for IntelliJ a través de VPN	Uso de Azure Toolkit for IntelliJ para depurar de forma remota aplicaciones de Apache Spark en HDInsight mediante VPN
Gráfico de trabajo en el servidor de historial de Apache Spark	Uso del servidor de historial de Apache Spark extendido para depurar y diagnosticar las aplicaciones de Spark

¿Cómo consigo que mis trabajos de Spark se ejecuten de manera más eficaz?

Opción	Documentos
Caché de E/S	Mejora del rendimiento de las cargas de trabajo de Apache Spark con la memoria caché de E/S de Azure HDInsight (versión preliminar)
Opciones de configuración	Optimización de trabajos de Apache Spark

¿Cómo me conecto a otros servicios de Azure?

Opción	Documentos
Apache Hive en HDInsight	Integración de Apache Spark y Apache Hive con el conector de Hive Warehouse
Apache HBase en HDInsight	Uso de Apache Spark para leer y escribir datos de Apache HBase
Apache Kafka en HDInsight	Tutorial: Uso del flujo estructurado de Apache Spark con Apache Kafka en HDInsight
Azure Cosmos DB	Azure Synapse Link para Azure Cosmos DB

¿Cuáles son mis opciones de almacenamiento?

Opción	Documentos
Azure Data Lake Storage Gen2	Uso de Data Lake Storage Gen2 con clústeres de Azure HDInsight
Azure Blob Storage	Uso de Azure Storage con clústeres de Azure HDInsight

Pasos siguientes