Apache Spark-riktlinjer

Den här artikeln innehåller olika riktlinjer för att använda Apache Spark i Azure HDInsight.

Hur gör jag för att köra eller skicka Spark-jobb?

Alternativ Dokument
VSCode Använda Spark- och Hive-verktyg för Visual Studio Code
Jupyter Notebook Självstudie: Läsa in data och köra frågor på ett Apache Spark-kluster i Azure HDInsight
IntelliJ Självstudie: Använda Azure Toolkit for IntelliJ för att skapa Apache Spark-program för ett HDInsight-kluster
IntelliJ Självstudie: Skapa ett Scala Maven-program för Apache Spark i HDInsight med IntelliJ
Zeppelin notebooks Använda Apache Zeppelin-anteckningsböcker med Apache Spark-kluster i Azure HDInsight
Skicka fjärrjobb med Livy Använda REST-API:et för Apache Spark för att skicka fjärrstyrda jobb till ett HDInsight Spark-kluster
Apache Oozie Oozie är ett arbetsflödes- och samordningssystem som hanterar Hadoop-jobb.
Apache Livy Du kan använda Livy för att köra interaktiva Spark-gränssnitt eller skicka batchjobb som ska köras på Spark.
Azure Data Factory för Apache Spark Spark-aktiviteten i en Data Factory-pipeline kör ett Spark-program på egen hand eller [HDInsight-kluster på begäran.
Azure Data Factory för Apache Hive HDInsight Hive-aktiviteten i en Data Factory-pipeline kör Hive-frågor på eget eller på begäran HDInsight-kluster.

Hur gör jag för att övervaka och felsöka Spark-jobb?

Alternativ Dokument
Azure Toolkit for IntelliJ Fel vid felsökning av Spark-jobb med Azure Toolkit for IntelliJ (förhandsversion)
Azure Toolkit for IntelliJ via SSH Felsöka Apache Spark-program lokalt eller via fjärranslutning i ett HDInsight-kluster med Azure Toolkit for IntelliJ via SSH
Azure Toolkit for IntelliJ via VPN Använda Azure Toolkit for IntelliJ för att fjärrsöka Apache Spark-program i HDInsight via VPN
Jobbdiagram på Apache Spark-historikserver Använda utökad Apache Spark-historikserver för att felsöka och diagnostisera Apache Spark-program

Hur gör jag för att få mina Spark-jobb att köras effektivare?

Alternativ Dokument
I/O-cache Förbättra prestanda för Apache Spark-arbetsbelastningar med Azure HDInsight IO Cache (förhandsversion)
Konfigurationsalternativ Optimera Apache Spark-jobb

Hur gör jag för att ansluta till andra Azure-tjänster?

Alternativ Dokument
Apache Hive på HDInsight Integrera Apache Spark och Apache Hive med Hive Warehouse-Anslut eller
Apache HBase på HDInsight Använda Apache Spark för att läsa och skriva Apache HBase-data
Apache Kafka på HDInsight Självstudie: Använda Apache Spark Structured Streaming med Apache Kafka i HDInsight
Azure Cosmos DB Azure Synapse Link för Azure Cosmos DB

Vilka är mina lagringsalternativ?

Alternativ Dokument
Azure Data Lake Storage Gen2 Använda Azure Data Lake Storage Gen2 med Azure HDInsight-kluster
Azure Data Lake Storage Gen1 Använda Azure Data Lake Storage Gen1 med Azure HDInsight-kluster
Azure Blob Storage Använda Azure-lagring med Azure HDInsight-kluster

Nästa steg