Instrucciones de Apache Spark
En este artículo se proporcionan instrucciones para usar Apache Spark en Azure HDInsight.
¿Cómo se ejecutan o envían los trabajos de Spark?
¿Cómo se supervisan y depuran los trabajos de Spark?
Opción | Documentos |
---|---|
Kit de herramientas de Azure para IntelliJ | Error de depuración de trabajos de Spark con Azure Toolkit for IntelliJ (versión preliminar) |
Azure Toolkit for IntelliJ a través de SSH | Depuración de aplicaciones de Apache Spark de forma local o remota en un clúster de HDInsight con Azure Toolkit for IntelliJ mediante SSH |
Azure Toolkit for IntelliJ a través de VPN | Uso de Azure Toolkit for IntelliJ para depurar de forma remota aplicaciones de Apache Spark en HDInsight mediante VPN |
Gráfico de trabajo en el servidor de historial de Apache Spark | Uso del servidor de historial de Apache Spark extendido para depurar y diagnosticar las aplicaciones de Spark |
¿Cómo consigo que mis trabajos de Spark se ejecuten de manera más eficaz?
Opción | Documentos |
---|---|
Caché de E/S | Mejora del rendimiento de las cargas de trabajo de Apache Spark con la memoria caché de E/S de Azure HDInsight (versión preliminar) |
Opciones de configuración | Optimización de trabajos de Apache Spark |
¿Cómo me conecto a otros servicios de Azure?
Opción | Documentos |
---|---|
Apache Hive en HDInsight | Integración de Apache Spark y Apache Hive con el conector de Hive Warehouse |
Apache HBase en HDInsight | Uso de Apache Spark para leer y escribir datos de Apache HBase |
Apache Kafka en HDInsight | Tutorial: Uso del flujo estructurado de Apache Spark con Apache Kafka en HDInsight |
Azure Cosmos DB | Azure Synapse Link para Azure Cosmos DB |
¿Cuáles son mis opciones de almacenamiento?
Opción | Documentos |
---|---|
Azure Data Lake Storage Gen2 | Uso de Data Lake Storage Gen2 con clústeres de Azure HDInsight |
Azure Blob Storage | Uso de Azure Storage con clústeres de Azure HDInsight |