Compartir a través de


Instrucciones de Apache Spark

En este artículo se proporcionan instrucciones para usar Apache Spark en Azure HDInsight.

¿Cómo se ejecutan o envían los trabajos de Spark?

Opción Documentos
Visual Studio Code Usar las herramientas Spark y Hive para Visual Studio Code
Cuadernos de Jupyter Notebook Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight
IntelliJ Tutorial: Uso de Azure Toolkit for IntelliJ con el fin de crear aplicaciones Apache Spark para un clúster de HDInsight
IntelliJ Tutorial: Creación de una aplicación de Scala Maven para Apache Spark en HDInsight mediante IntelliJ
Zeppelin Notebooks Uso de cuadernos de Apache Zeppelin con un clúster Apache Spark en Azure HDInsight
Envío de trabajos remotos con Livy Uso de la API REST de Apache Spark para enviar trabajos remotos a un clúster Spark de HDInsight
Apache Oozie Oozie es un sistema de coordinación y flujos de trabajo que administra trabajos de Hadoop.
Apache Livy Puede usar Livy para ejecutar shells de Spark interactivos o enviar trabajos por lotes que se ejecutarán en Spark.
Azure Data Factory para Apache Spark La actividad de Spark en una canalización de Data Factory ejecuta un programa de Spark en su clúster de HDInsight propio o [a petición.
Azure Data Factory para Apache Hive La actividad de Hive de HDInsight en una canalización de Data Factory ejecuta consultas de Hive en su propio clúster de HDInsight o en uno a petición.

¿Cómo se supervisan y depuran los trabajos de Spark?

Opción Documentos
Kit de herramientas de Azure para IntelliJ Error de depuración de trabajos de Spark con Azure Toolkit for IntelliJ (versión preliminar)
Azure Toolkit for IntelliJ a través de SSH Depuración de aplicaciones de Apache Spark de forma local o remota en un clúster de HDInsight con Azure Toolkit for IntelliJ mediante SSH
Azure Toolkit for IntelliJ a través de VPN Uso de Azure Toolkit for IntelliJ para depurar de forma remota aplicaciones de Apache Spark en HDInsight mediante VPN
Gráfico de trabajo en el servidor de historial de Apache Spark Uso del servidor de historial de Apache Spark extendido para depurar y diagnosticar las aplicaciones de Spark

¿Cómo consigo que mis trabajos de Spark se ejecuten de manera más eficaz?

Opción Documentos
Caché de E/S Mejora del rendimiento de las cargas de trabajo de Apache Spark con la memoria caché de E/S de Azure HDInsight (versión preliminar)
Opciones de configuración Optimización de trabajos de Apache Spark

¿Cómo me conecto a otros servicios de Azure?

Opción Documentos
Apache Hive en HDInsight Integración de Apache Spark y Apache Hive con el conector de Hive Warehouse
Apache HBase en HDInsight Uso de Apache Spark para leer y escribir datos de Apache HBase
Apache Kafka en HDInsight Tutorial: Uso del flujo estructurado de Apache Spark con Apache Kafka en HDInsight
Azure Cosmos DB Azure Synapse Link para Azure Cosmos DB

¿Cuáles son mis opciones de almacenamiento?

Opción Documentos
Azure Data Lake Storage Gen2 Uso de Data Lake Storage Gen2 con clústeres de Azure HDInsight
Azure Blob Storage Uso de Azure Storage con clústeres de Azure HDInsight

Pasos siguientes