Linee guida per Apache Spark

2025-02-28

Questo articolo fornisce varie linee guida per l'uso di Apache Spark in Azure HDInsight.

Come si eseguono o si inviano I processi Spark?

Opzione	Documenti
Visual Studio Code	Usare Spark & Hive Tools per Visual Studio Code
Jupyter Notebook	Esercitazione: Caricare i dati ed eseguire query in un cluster Apache Spark in Azure HDInsight
IntelliJ	Esercitazione: Usare Azure Toolkit for IntelliJ per creare applicazioni Apache Spark per un cluster HDInsight
IntelliJ	Esercitazione: Creare un'applicazione Scala Maven per Apache Spark in HDInsight usando IntelliJ
Notebook di Zeppelin	Usare i notebook di Apache Zeppelin con cluster Apache Spark in Azure HDInsight
Invio di processi in modalità remota con Livy	Usare l'API REST di Apache Spark per inviare i processi remoti a un cluster HDInsight Spark
Apache Oozie	Oozie è un sistema di coordinamento dei flussi di lavoro che consente di gestire i processi Hadoop.
Apache Livy	È possibile usare Livy per l'esecuzione interattiva di shell Spark o per inviare processi batch da eseguire su Spark.
Azure Data Factory per Apache Spark	L'attività Spark in una pipeline di Data Factory esegue un programma Spark nel cluster HDInsight personalizzato o su richiesta.
Azure Data Factory per Apache Hive	L'attività Hive di HDInsight in una pipeline di Data Factory esegue query Hive sul proprio cluster HDInsight o sul cluster HDInsight on demand.

Come è possibile monitorare ed eseguire il debug dei processi Spark?

Opzione	Documenti
Azure Toolkit for IntelliJ	Debug del processo Spark non riuscito con Azure Toolkit for IntelliJ (anteprima)
Azure Toolkit for IntelliJ tramite SSH	Eseguire il debug delle applicazioni Apache Spark in modalità remota o in locale su un cluster HDInsight con Azure Toolkit for IntelliJ tramite SSH
Azure Toolkit for IntelliJ tramite VPN	Usare Azure Toolkit for IntelliJ per eseguire il debug remoto di applicazioni Apache Spark in HDInsight tramite VPN
Grafo del processo nel Server cronologia Apache Spark	Usare il Server cronologia Apache Spark esteso per il debug e la diagnosi di applicazioni Apache Spark

Come si può migliorare l'efficienza dell'esecuzione dei processi Spark?

Opzione	Documenti
IO Cache	Migliorare le prestazioni dei carichi di lavoro Apache Spark usando Cache IO di Azure HDInsight (anteprima)
Opzioni di configurazione	Ottimizzare i processi Apache Spark

Come ci si connette ad altri servizi di Azure?

Opzione	Documenti
Apache Hive in HDInsight	Integrare Apache Spark e Apache Hive con il connettore Hive Warehouse
Apache HBase in HDInsight	Usare Apache Spark per leggere e scrivere dati Apache HBase
Apache Kafka in HDInsight	Esercitazione: Usare lo streaming strutturato di Apache Spark con Apache Kafka in HDInsight
Azure Cosmos DB	Collegamento ad Azure Synapse per Azure Cosmos DB

Quali sono le opzioni di archiviazione?

Opzione	Documenti
Azure Data Lake Storage Gen2	Usare Azure Data Lake Storage Gen2 con cluster Azure HDInsight
Archiviazione BLOB di Azure	Usare una risorsa di archiviazione di Azure con cluster Azure HDInsight

Passaggi successivi