Diretrizes do Apache Spark
Este artigo fornece várias diretrizes para usar o Apache Spark no Azure HDInsight.
Como faço para executar ou enviar trabalhos do Spark?
Como faço para monitorar e depurar trabalhos do Spark?
Opção | Documentos |
---|---|
Azure Toolkit for IntelliJ | Falha desencadeia depuração de trabalho com o Kit de Ferramentas do Azure para IntelliJ (visualização) |
Kit de Ferramentas do Azure para IntelliJ através de SSH | Depurar aplicações Apache Spark localmente ou remotamente num cluster HDInsight com o Azure Toolkit for IntelliJ através de SSH |
Kit de Ferramentas do Azure para IntelliJ através de VPN | Usar o Kit de Ferramentas do Azure para IntelliJ para depurar aplicativos Apache Spark remotamente no HDInsight por meio de VPN |
Gráfico de trabalho no Apache Spark History Server | Utilizar o Servidor do Histórico do Apache Spark expandido para depurar e diagnosticar aplicações Apache Spark |
Como faço para que meus trabalhos do Spark sejam executados de forma mais eficiente?
Opção | Documentos |
---|---|
Cache de E/S | Melhorar o desempenho de cargas de trabalho do Apache Spark usando o Cache de E/S do Azure HDInsight (Visualização) |
Opções de configuração | Otimizar trabalhos do Apache Spark |
Como faço para me conectar a outros Serviços do Azure?
Opção | Documentos |
---|---|
Apache Hive no HDInsight | Integre o Apache Spark e o Apache Hive com o Hive Warehouse Connector |
Apache HBase no HDInsight | Use o Apache Spark para ler e gravar dados do Apache HBase |
Apache Kafka no HDInsight | Tutorial: Usar o Apache Spark Structured Streaming com o Apache Kafka no HDInsight |
Azure Cosmos DB | Azure Synapse Link para o Azure Cosmos DB |
Quais são as minhas opções de armazenamento?
Opção | Documentos |
---|---|
Azure Data Lake Storage Gen2 | Utilizar o Azure Data Lake Storage Gen2 com clusters do Azure HDInsight |
Armazenamento de Blobs do Azure | Utilizar o armazenamento do Azure com clusters do Azure HDInsight |