Apache Spark-Richtlinien

Dieser Artikel enthält verschiedene Richtlinien für die Verwendung von Apache Spark in Azure HDInsight.

Wie kann ich Spark-Aufträge ausführen oder übermitteln?

Option Dokumente
VSCode Verwenden von Spark- und Hive-Tools für Visual Studio Code
Jupyter Notebook Tutorial: Laden von Daten und Ausführen von Abfragen auf einem Apache Spark-Cluster in Azure HDInsight
IntelliJ Tutorial: Erstellen von Apache Spark-Anwendungen für einen HDInsight-Cluster mit dem Azure-Toolkit für IntelliJ
IntelliJ Tutorial: Erstellen einer Scala Maven-Anwendung für Apache Spark in HDInsight mithilfe von IntelliJ
Zeppelin-Notebooks Verwenden von Apache Zeppelin-Notebooks mit Apache Spark-Cluster in Azure HDInsight
Remoteauftragsübermittlung mit Livy Übermitteln von Remoteaufträgen an einen HDInsight Spark-Cluster mithilfe der Apache Spark-REST-API
Apache Oozie Oozie ist ein Workflow- und Koordinationssystem zur Verwaltung von Hadoop-Aufträgen.
Apache Livy Mit Livy können Sie interaktive Spark-Shells ausführen oder Batchaufträge zur Ausführung in Spark übermitteln.
Azure Data Factory für Apache Spark Die Spark-Aktivität in einer Data Factory-Pipeline führt ein Spark-Programm auf Ihrem eigenen oder [bedarfsgesteuerten] HDInsight-Cluster aus.
Azure Data Factory für Apache Hive Die HDInsight Hive-Aktivität in einer Data Factory-Pipeline führt Hive-Abfragen in Ihrem eigenen oder bedarfsgesteuerten HDInsight-Cluster aus.

Wie kann ich Spark-Aufträge überwachen und debuggen?

Option Dokumente
Azure Toolkit für IntelliJ Debuggen von fehlgeschlagenen Spark-Aufträgen mit dem Azure-Toolkit für IntelliJ (Vorschau)
Azure-Toolkit für IntelliJ über SSH Lokales oder Remotedebuggen von Apache Spark-Anwendungen in einem HDInsight-Cluster mit dem Azure-Toolkit für IntelliJ per SSH
Azure-Toolkit für IntelliJ über VPN Verwenden des Azure-Toolkits für IntelliJ zum Remotedebuggen von Apache Spark-Anwendungen über VPN
Auftragsdiagramm im Apache Spark-Verlaufsserver Verwenden des erweiterten Apache Spark-Verlaufsservers zum Debuggen und Diagnostizieren von Apache Spark-Anwendungen

Wie kann ich meine Spark-Aufträge effizienter gestalten?

Option Dokumente
E/A-Cache Verbessern der Leistung von Apache Spark-Workloads per Azure HDInsight IO Cache (Vorschauversion)
Konfigurationsoptionen Optimieren von Apache Spark-Aufträgen

Wie kann ich Verbindungen mit anderen Azure-Diensten herstellen?

Option Dokumente
Apache Hive in HDInsight Integrieren von Apache Spark und Apache Hive per Hive Warehouse Connector
Apache HBase in HDInsight Verwenden von Apache Spark zum Lesen und Schreiben von Apache HBase-Daten
Apache Kafka in HDInsight Tutorial: Verwenden von strukturiertem Apache Spark-Streaming mit Apache Kafka in HDInsight
Azure Cosmos DB Azure Synapse Link für Azure Cosmos DB

Welche Speicheroptionen stehen mir zur Verfügung?

Option Dokumente
Azure Data Lake Storage Gen2 Verwenden von Azure Data Lake Storage Gen2 mit Azure HDInsight-Clustern
Azure Data Lake Storage Gen1 Verwenden von Azure Data Lake Storage Gen1 mit Azure HDInsight-Clustern
Azure Blob Storage Verwenden von Azure Storage mit Azure HDInsight-Clustern

Nächste Schritte