Linee guida per Apache Spark
Questo articolo fornisce varie linee guida per l'uso di Apache Spark in Azure HDInsight.
Come si eseguono o si inviano I processi Spark?
Opzione | Documenti |
---|---|
Visual Studio Code | Usare Spark & Hive Tools per Visual Studio Code |
Jupyter Notebook | Esercitazione: Caricare i dati ed eseguire query in un cluster Apache Spark in Azure HDInsight |
IntelliJ | Esercitazione: Usare Azure Toolkit for IntelliJ per creare applicazioni Apache Spark per un cluster HDInsight |
IntelliJ | Esercitazione: Creare un'applicazione Scala Maven per Apache Spark in HDInsight usando IntelliJ |
Notebook di Zeppelin | Usare i notebook di Apache Zeppelin con cluster Apache Spark in Azure HDInsight |
Invio di processi in modalità remota con Livy | Usare l'API REST di Apache Spark per inviare i processi remoti a un cluster HDInsight Spark |
Apache Oozie | Oozie è un sistema di coordinamento dei flussi di lavoro che consente di gestire i processi Hadoop. |
Apache Livy | È possibile usare Livy per l'esecuzione interattiva di shell Spark o per inviare processi batch da eseguire su Spark. |
Azure Data Factory per Apache Spark | L'attività Spark in una pipeline di Data Factory esegue un programma Spark nel cluster HDInsight personalizzato o su richiesta. |
Azure Data Factory per Apache Hive | L'attività Hive di HDInsight in una pipeline di Data Factory esegue query Hive sul proprio cluster HDInsight o sul cluster HDInsight on demand. |
Come è possibile monitorare ed eseguire il debug dei processi Spark?
Opzione | Documenti |
---|---|
Azure Toolkit for IntelliJ | Debug del processo Spark non riuscito con Azure Toolkit for IntelliJ (anteprima) |
Azure Toolkit for IntelliJ tramite SSH | Eseguire il debug delle applicazioni Apache Spark in modalità remota o in locale su un cluster HDInsight con Azure Toolkit for IntelliJ tramite SSH |
Azure Toolkit for IntelliJ tramite VPN | Usare Azure Toolkit for IntelliJ per eseguire il debug remoto di applicazioni Apache Spark in HDInsight tramite VPN |
Grafo del processo nel Server cronologia Apache Spark | Usare il Server cronologia Apache Spark esteso per il debug e la diagnosi di applicazioni Apache Spark |
Come si può migliorare l'efficienza dell'esecuzione dei processi Spark?
Opzione | Documenti |
---|---|
IO Cache | Migliorare le prestazioni dei carichi di lavoro Apache Spark usando Cache IO di Azure HDInsight (anteprima) |
Opzioni di configurazione | Ottimizzare i processi Apache Spark |
Come ci si connette ad altri servizi di Azure?
Opzione | Documenti |
---|---|
Apache Hive in HDInsight | Integrare Apache Spark e Apache Hive con il connettore Hive Warehouse |
Apache HBase in HDInsight | Usare Apache Spark per leggere e scrivere dati Apache HBase |
Apache Kafka in HDInsight | Esercitazione: Usare lo streaming strutturato di Apache Spark con Apache Kafka in HDInsight |
Azure Cosmos DB | Collegamento ad Azure Synapse per Azure Cosmos DB |
Quali sono le opzioni di archiviazione?
Opzione | Documenti |
---|---|
Azure Data Lake Storage Gen2 | Usare Azure Data Lake Storage Gen2 con cluster Azure HDInsight |
Archiviazione BLOB di Azure | Usare una risorsa di archiviazione di Azure con cluster Azure HDInsight |