Apache Spark-riktlinjer

Artikel
01/10/2024

Den här artikeln innehåller olika riktlinjer för att använda Apache Spark i Azure HDInsight.

Hur gör jag för att köra eller skicka Spark-jobb?

Alternativ	Dokument
VSCode	Använda Spark- och Hive-verktyg för Visual Studio Code
Jupyter Notebook	Självstudie: Läsa in data och köra frågor på ett Apache Spark-kluster i Azure HDInsight
IntelliJ	Självstudie: Använda Azure Toolkit for IntelliJ för att skapa Apache Spark-program för ett HDInsight-kluster
IntelliJ	Självstudie: Skapa ett Scala Maven-program för Apache Spark i HDInsight med IntelliJ
Zeppelin notebooks	Använda Apache Zeppelin-anteckningsböcker med Apache Spark-kluster i Azure HDInsight
Skicka fjärrjobb med Livy	Använda REST-API:et för Apache Spark för att skicka fjärrstyrda jobb till ett HDInsight Spark-kluster
Apache Oozie	Oozie är ett arbetsflödes- och samordningssystem som hanterar Hadoop-jobb.
Apache Livy	Du kan använda Livy för att köra interaktiva Spark-gränssnitt eller skicka batchjobb som ska köras på Spark.
Azure Data Factory för Apache Spark	Spark-aktiviteten i en Data Factory-pipeline kör ett Spark-program på egen hand eller [HDInsight-kluster på begäran.
Azure Data Factory för Apache Hive	HDInsight Hive-aktiviteten i en Data Factory-pipeline kör Hive-frågor på eget eller på begäran HDInsight-kluster.

Hur gör jag för att övervaka och felsöka Spark-jobb?

Alternativ	Dokument
Azure Toolkit for IntelliJ	Fel vid felsökning av Spark-jobb med Azure Toolkit for IntelliJ (förhandsversion)
Azure Toolkit for IntelliJ via SSH	Felsöka Apache Spark-program lokalt eller via fjärranslutning i ett HDInsight-kluster med Azure Toolkit for IntelliJ via SSH
Azure Toolkit for IntelliJ via VPN	Använda Azure Toolkit for IntelliJ för att fjärrsöka Apache Spark-program i HDInsight via VPN
Jobbdiagram på Apache Spark-historikserver	Använda utökad Apache Spark-historikserver för att felsöka och diagnostisera Apache Spark-program

Hur gör jag för att få mina Spark-jobb att köras effektivare?

Alternativ	Dokument
I/O-cache	Förbättra prestanda för Apache Spark-arbetsbelastningar med Azure HDInsight IO Cache (förhandsversion)
Konfigurationsalternativ	Optimera Apache Spark-jobb

Hur gör jag för att ansluta till andra Azure-tjänster?

Alternativ	Dokument
Apache Hive på HDInsight	Integrera Apache Spark och Apache Hive med Hive Warehouse-Anslut eller
Apache HBase på HDInsight	Använda Apache Spark för att läsa och skriva Apache HBase-data
Apache Kafka på HDInsight	Självstudie: Använda Apache Spark Structured Streaming med Apache Kafka i HDInsight
Azure Cosmos DB	Azure Synapse Link för Azure Cosmos DB

Vilka är mina lagringsalternativ?

Alternativ	Dokument
Azure Data Lake Storage Gen2	Använda Azure Data Lake Storage Gen2 med Azure HDInsight-kluster
Azure Data Lake Storage Gen1	Använda Azure Data Lake Storage Gen1 med Azure HDInsight-kluster
Azure Blob Storage	Använda Azure-lagring med Azure HDInsight-kluster

Nästa steg