Instructions Apache Spark
Cet article présente différentes instructions pour l’utilisation d’Apache Spark sur Azure HDInsight.
Comment exécuter ou envoyer des travaux Spark ?
Option | Documents |
---|---|
Visual Studio Code | Utiliser les outils Spark et Hive pour Visual Studio Code |
Notebooks Jupyter | Tutoriel : Charger des données et exécuter des requêtes sur un cluster Apache Spark dans Azure HDInsight |
IntelliJ | Tutoriel : Utiliser Azure Toolkit for IntelliJ pour créer des applications Apache Spark pour un cluster HDInsight |
IntelliJ | Tutoriel : Créer une application Scala Maven pour Apache Spark dans HDInsight à l’aide d’IntelliJ |
Notebooks Zeppelin | Utiliser des blocs-notes Apache Zeppelin avec un cluster Apache Spark sur HDInsight |
Envoi de travaux à distance avec Livy | Utiliser l’API REST Spark Apache pour envoyer des travaux à distance à un cluster Spark HDInsight |
Apache Oozie | Oozie est un workflow et un système de coordination qui gère les travaux Hadoop. |
Apache Livy | Vous pouvez utiliser Livy pour exécuter des interpréteurs de commandes Spark interactifs ou soumettre des traitements par lots à exécuter sur Spark. |
Azure Data Factory pour Apache Spark | L’activité Spark d’un pipeline Data Factory exécute un programme Spark sur votre propre cluster HDInsight ou sur un cluster HDInsight à la demande. |
Azure Data Factory pour Apache Hive | L’activité Hive HDInsight d’un pipeline Data Factory exécute des requêtes Hive sur votre propre cluster HDInsight ou sur un cluster HDInsight à la demande. |
Comment superviser et déboguer les travaux Spark ?
Option | Documents |
---|---|
Kit de ressources Azure pour IntelliJ | Échec du débogage du travail Spark avec Azure Toolkit for IntelliJ (préversion) |
Azure Toolkit for IntelliJ via SSH | Déboguer les applications Apache Spark localement ou à distance sur un cluster HDInsight, avec Azure Toolkit for IntelliJ via SSH |
Azure Toolkit for IntelliJ via VPN | Utiliser Azure Toolkit for IntelliJ pour déboguer des applications Apache Spark à distance dans HDInsight via VPN |
Graphe du travail sur le serveur d’historique Apache Spark | Utiliser le serveur d’historique Apache Spark étendu pour déboguer et diagnostiquer des applications Apache Spark |
Comment faire en sorte que mes travaux Spark s’exécutent plus efficacement ?
Option | Documents |
---|---|
Cache d’E/S | Améliorer les performances des charges de travail Apache Spark à l’aide d’Azure HDInsight IO Cache (préversion) |
Options de configuration | Optimiser des travaux Apache Spark |
Comment me connecter à d’autres services Azure ?
Option | Documents |
---|---|
Apache Hive sur HDInsight | Intégrer Apache Spark et Apache Hive au le connecteur d’entrepôt Hive |
Apache HBase sur HDInsight | Utiliser Apache Spark pour lire et écrire des données Apache HBase |
Apache Kafka sur HDInsight | Tutoriel : Utiliser Apache Spark Structured Streaming avec Apache Kafka sur HDInsight |
Azure Cosmos DB | Synapse Link pour Azure Cosmos DB |
Quelles sont mes options de stockage ?
Option | Documents |
---|---|
Azure Data Lake Storage Gen2 | Utiliser Azure Data Lake Storage Gen2 avec des clusters Azure HDInsight |
Stockage Blob Azure | Utiliser Stockage Azure avec des clusters Azure HDInsight |