Apache Spark-Richtlinien

Artikel
07/12/2023

Dieser Artikel enthält verschiedene Richtlinien für die Verwendung von Apache Spark in Azure HDInsight.

Wie kann ich Spark-Aufträge ausführen oder übermitteln?

Option	Dokumente
VSCode	Verwenden von Spark- und Hive-Tools für Visual Studio Code
Jupyter Notebook	Tutorial: Laden von Daten und Ausführen von Abfragen auf einem Apache Spark-Cluster in Azure HDInsight
IntelliJ	Tutorial: Erstellen von Apache Spark-Anwendungen für einen HDInsight-Cluster mit dem Azure-Toolkit für IntelliJ
IntelliJ	Tutorial: Erstellen einer Scala Maven-Anwendung für Apache Spark in HDInsight mithilfe von IntelliJ
Zeppelin-Notebooks	Verwenden von Apache Zeppelin-Notebooks mit Apache Spark-Cluster in Azure HDInsight
Remoteauftragsübermittlung mit Livy	Übermitteln von Remoteaufträgen an einen HDInsight Spark-Cluster mithilfe der Apache Spark-REST-API
Apache Oozie	Oozie ist ein Workflow- und Koordinationssystem zur Verwaltung von Hadoop-Aufträgen.
Apache Livy	Mit Livy können Sie interaktive Spark-Shells ausführen oder Batchaufträge zur Ausführung in Spark übermitteln.
Azure Data Factory für Apache Spark	Die Spark-Aktivität in einer Data Factory-Pipeline führt ein Spark-Programm auf Ihrem eigenen oder [bedarfsgesteuerten] HDInsight-Cluster aus.
Azure Data Factory für Apache Hive	Die HDInsight Hive-Aktivität in einer Data Factory-Pipeline führt Hive-Abfragen in Ihrem eigenen oder bedarfsgesteuerten HDInsight-Cluster aus.

Wie kann ich Spark-Aufträge überwachen und debuggen?

Option	Dokumente
Azure Toolkit für IntelliJ	Debuggen von fehlgeschlagenen Spark-Aufträgen mit dem Azure-Toolkit für IntelliJ (Vorschau)
Azure-Toolkit für IntelliJ über SSH	Lokales oder Remotedebuggen von Apache Spark-Anwendungen in einem HDInsight-Cluster mit dem Azure-Toolkit für IntelliJ per SSH
Azure-Toolkit für IntelliJ über VPN	Verwenden des Azure-Toolkits für IntelliJ zum Remotedebuggen von Apache Spark-Anwendungen über VPN
Auftragsdiagramm im Apache Spark-Verlaufsserver	Verwenden des erweiterten Apache Spark-Verlaufsservers zum Debuggen und Diagnostizieren von Apache Spark-Anwendungen

Wie kann ich meine Spark-Aufträge effizienter gestalten?

Option	Dokumente
E/A-Cache	Verbessern der Leistung von Apache Spark-Workloads per Azure HDInsight IO Cache (Vorschauversion)
Konfigurationsoptionen	Optimieren von Apache Spark-Aufträgen

Wie kann ich Verbindungen mit anderen Azure-Diensten herstellen?

Option	Dokumente
Apache Hive in HDInsight	Integrieren von Apache Spark und Apache Hive per Hive Warehouse Connector
Apache HBase in HDInsight	Verwenden von Apache Spark zum Lesen und Schreiben von Apache HBase-Daten
Apache Kafka in HDInsight	Tutorial: Verwenden von strukturiertem Apache Spark-Streaming mit Apache Kafka in HDInsight
Azure Cosmos DB	Azure Synapse Link für Azure Cosmos DB

Welche Speicheroptionen stehen mir zur Verfügung?

Option	Dokumente
Azure Data Lake Storage Gen2	Verwenden von Azure Data Lake Storage Gen2 mit Azure HDInsight-Clustern
Azure Data Lake Storage Gen1	Verwenden von Azure Data Lake Storage Gen1 mit Azure HDInsight-Clustern
Azure Blob Storage	Verwenden von Azure Storage mit Azure HDInsight-Clustern

Nächste Schritte