Diretrizes do Apache Spark

Artigo
07/25/2024

Este artigo fornece várias diretrizes para usar o Apache Spark no Azure HDInsight.

Como faço para executar ou enviar trabalhos do Spark?

Opção	Documentos
Visual Studio Code	Usar ferramentas Spark & Hive para código do Visual Studio
Jupyter Notebooks	Tutorial: Carregar dados e executar consultas em um cluster Apache Spark no Azure HDInsight
IntelliJ	Tutorial: Usar o Kit de Ferramentas do Azure para IntelliJ para criar aplicativos Apache Spark para um cluster HDInsight
IntelliJ	Tutorial: Criar um aplicativo Scala Maven para Apache Spark no HDInsight usando o IntelliJ
Blocos de notas Zeppelin	Utilizar blocos de notas do Apache Zeppelin com o cluster do Apache Spark no Azure HDInsight
Submissão remota de trabalhos com o Livy	Utilizar a API REST do Apache Spark para submeter trabalhos remotos para um cluster do HDInsight Spark
Apache Oozie	O Oozie é um sistema de fluxo de trabalho e coordenação que gerencia trabalhos do Hadoop.
Apache Lívio	Você pode usar o Livy para executar shells interativos do Spark ou enviar trabalhos em lote para serem executados no Spark.
Azure Data Factory para Apache Spark	A atividade do Spark em um pipeline do Data Factory executa um programa Spark por conta própria ou [cluster HDInsight sob demanda.
Azure Data Factory para Apache Hive	A atividade do Hive do HDInsight em um pipeline do Data Factory executa consultas do Hive por conta própria ou sob demanda do cluster HDInsight.

Como faço para monitorar e depurar trabalhos do Spark?

Opção	Documentos
Azure Toolkit for IntelliJ	Falha desencadeia depuração de trabalho com o Kit de Ferramentas do Azure para IntelliJ (visualização)
Kit de Ferramentas do Azure para IntelliJ através de SSH	Depurar aplicações Apache Spark localmente ou remotamente num cluster HDInsight com o Azure Toolkit for IntelliJ através de SSH
Kit de Ferramentas do Azure para IntelliJ através de VPN	Usar o Kit de Ferramentas do Azure para IntelliJ para depurar aplicativos Apache Spark remotamente no HDInsight por meio de VPN
Gráfico de trabalho no Apache Spark History Server	Utilizar o Servidor do Histórico do Apache Spark expandido para depurar e diagnosticar aplicações Apache Spark

Como faço para que meus trabalhos do Spark sejam executados de forma mais eficiente?

Opção	Documentos
Cache de E/S	Melhorar o desempenho de cargas de trabalho do Apache Spark usando o Cache de E/S do Azure HDInsight (Visualização)
Opções de configuração	Otimizar trabalhos do Apache Spark

Como faço para me conectar a outros Serviços do Azure?

Opção	Documentos
Apache Hive no HDInsight	Integre o Apache Spark e o Apache Hive com o Hive Warehouse Connector
Apache HBase no HDInsight	Use o Apache Spark para ler e gravar dados do Apache HBase
Apache Kafka no HDInsight	Tutorial: Usar o Apache Spark Structured Streaming com o Apache Kafka no HDInsight
Azure Cosmos DB	Azure Synapse Link para o Azure Cosmos DB

Quais são as minhas opções de armazenamento?

Opção	Documentos
Azure Data Lake Storage Gen2	Utilizar o Azure Data Lake Storage Gen2 com clusters do Azure HDInsight
Armazenamento de Blobs do Azure	Utilizar o armazenamento do Azure com clusters do Azure HDInsight

Próximos passos