Diretrizes do Apache Spark

Este artigo fornece várias diretrizes para usar o Apache Spark no Azure HDInsight.

Como faço para executar ou enviar trabalhos do Spark?

Opção Documentos
VSCode Usar ferramentas Spark & Hive para código do Visual Studio
Jupyter Notebooks Tutorial: Carregar dados e executar consultas em um cluster Apache Spark no Azure HDInsight
IntelliJ Tutorial: Usar o Kit de Ferramentas do Azure para IntelliJ para criar aplicativos Apache Spark para um cluster HDInsight
IntelliJ Tutorial: Criar um aplicativo Scala Maven para Apache Spark no HDInsight usando o IntelliJ
Blocos de notas Zeppelin Utilizar blocos de notas do Apache Zeppelin com o cluster do Apache Spark no Azure HDInsight
Submissão remota de trabalhos com o Livy Utilizar a API REST do Apache Spark para submeter trabalhos remotos para um cluster do HDInsight Spark
Apache Oozie O Oozie é um sistema de fluxo de trabalho e coordenação que gerencia trabalhos do Hadoop.
Apache Lívio Você pode usar o Livy para executar shells interativos do Spark ou enviar trabalhos em lote para serem executados no Spark.
Azure Data Factory para Apache Spark A atividade do Spark em um pipeline do Data Factory executa um programa Spark por conta própria ou [cluster HDInsight sob demanda.
Azure Data Factory para Apache Hive A atividade do Hive do HDInsight em um pipeline do Data Factory executa consultas do Hive por conta própria ou sob demanda do cluster HDInsight.

Como faço para monitorar e depurar trabalhos do Spark?

Opção Documentos
Azure Toolkit for IntelliJ Falha desencadeia depuração de trabalho com o Kit de Ferramentas do Azure para IntelliJ (visualização)
Kit de Ferramentas do Azure para IntelliJ através de SSH Depurar aplicações Apache Spark localmente ou remotamente num cluster HDInsight com o Azure Toolkit for IntelliJ através de SSH
Kit de Ferramentas do Azure para IntelliJ através de VPN Usar o Kit de Ferramentas do Azure para IntelliJ para depurar aplicativos Apache Spark remotamente no HDInsight por meio de VPN
Gráfico de trabalho no Apache Spark History Server Utilizar o Servidor do Histórico do Apache Spark expandido para depurar e diagnosticar aplicações Apache Spark

Como faço para que meus trabalhos do Spark sejam executados de forma mais eficiente?

Opção Documentos
Cache de E/S Melhorar o desempenho de cargas de trabalho do Apache Spark usando o Cache de E/S do Azure HDInsight (Visualização)
Opções de configuração Otimizar trabalhos do Apache Spark

Como faço para me conectar a outros Serviços do Azure?

Opção Documentos
Apache Hive no HDInsight Integre o Apache Spark e o Apache Hive com o Hive Warehouse Connector
Apache HBase no HDInsight Use o Apache Spark para ler e gravar dados do Apache HBase
Apache Kafka no HDInsight Tutorial: Usar o Apache Spark Structured Streaming com o Apache Kafka no HDInsight
BD do Cosmos para o Azure Azure Synapse Link para o Azure Cosmos DB

Quais são as minhas opções de armazenamento?

Opção Documentos
Azure Data Lake Storage Gen2 Utilizar o Azure Data Lake Storage Gen2 com clusters do Azure HDInsight
Armazenamento do Azure Data Lake Ger1 Usar o Azure Data Lake Storage Gen1 com clusters do Azure HDInsight
Armazenamento de Blobs do Azure Utilizar o armazenamento do Azure com clusters do Azure HDInsight

Próximos passos