Condividi tramite


Linee guida per Apache Spark

Questo articolo fornisce varie linee guida per l'uso di Apache Spark in Azure HDInsight.

Come si eseguono o si inviano I processi Spark?

Opzione Documenti
Visual Studio Code Usare Spark & Hive Tools per Visual Studio Code
Jupyter Notebook Esercitazione: Caricare i dati ed eseguire query in un cluster Apache Spark in Azure HDInsight
IntelliJ Esercitazione: Usare Azure Toolkit for IntelliJ per creare applicazioni Apache Spark per un cluster HDInsight
IntelliJ Esercitazione: Creare un'applicazione Scala Maven per Apache Spark in HDInsight usando IntelliJ
Notebook di Zeppelin Usare i notebook di Apache Zeppelin con cluster Apache Spark in Azure HDInsight
Invio di processi in modalità remota con Livy Usare l'API REST di Apache Spark per inviare i processi remoti a un cluster HDInsight Spark
Apache Oozie Oozie è un sistema di coordinamento dei flussi di lavoro che consente di gestire i processi Hadoop.
Apache Livy È possibile usare Livy per l'esecuzione interattiva di shell Spark o per inviare processi batch da eseguire su Spark.
Azure Data Factory per Apache Spark L'attività Spark in una pipeline di Data Factory esegue un programma Spark nel cluster HDInsight personalizzato o su richiesta.
Azure Data Factory per Apache Hive L'attività Hive di HDInsight in una pipeline di Data Factory esegue query Hive sul proprio cluster HDInsight o sul cluster HDInsight on demand.

Come è possibile monitorare ed eseguire il debug dei processi Spark?

Opzione Documenti
Azure Toolkit for IntelliJ Debug del processo Spark non riuscito con Azure Toolkit for IntelliJ (anteprima)
Azure Toolkit for IntelliJ tramite SSH Eseguire il debug delle applicazioni Apache Spark in modalità remota o in locale su un cluster HDInsight con Azure Toolkit for IntelliJ tramite SSH
Azure Toolkit for IntelliJ tramite VPN Usare Azure Toolkit for IntelliJ per eseguire il debug remoto di applicazioni Apache Spark in HDInsight tramite VPN
Grafo del processo nel Server cronologia Apache Spark Usare il Server cronologia Apache Spark esteso per il debug e la diagnosi di applicazioni Apache Spark

Come si può migliorare l'efficienza dell'esecuzione dei processi Spark?

Opzione Documenti
IO Cache Migliorare le prestazioni dei carichi di lavoro Apache Spark usando Cache IO di Azure HDInsight (anteprima)
Opzioni di configurazione Ottimizzare i processi Apache Spark

Come ci si connette ad altri servizi di Azure?

Opzione Documenti
Apache Hive in HDInsight Integrare Apache Spark e Apache Hive con il connettore Hive Warehouse
Apache HBase in HDInsight Usare Apache Spark per leggere e scrivere dati Apache HBase
Apache Kafka in HDInsight Esercitazione: Usare lo streaming strutturato di Apache Spark con Apache Kafka in HDInsight
Azure Cosmos DB Collegamento ad Azure Synapse per Azure Cosmos DB

Quali sono le opzioni di archiviazione?

Opzione Documenti
Azure Data Lake Storage Gen2 Usare Azure Data Lake Storage Gen2 con cluster Azure HDInsight
Archiviazione BLOB di Azure Usare una risorsa di archiviazione di Azure con cluster Azure HDInsight

Passaggi successivi