Wskazówki dotyczące platformy Apache Spark

Ten artykuł zawiera różne wskazówki dotyczące korzystania z platformy Apache Spark w usłudze Azure HDInsight.

Jak mogę uruchomić lub przesłać zadania platformy Spark?

Opcja Dokumenty
VSCode Korzystanie z narzędzi Spark i Hive Tools for Visual Studio Code
Notesy programu Jupyter Samouczek: ładowanie danych i uruchamianie zapytań w klastrze Apache Spark w usłudze Azure HDInsight
IntelliJ Samouczek: tworzenie aplikacji Platformy Apache Spark dla klastra usługi HDInsight przy użyciu zestawu narzędzi Azure Toolkit for IntelliJ
IntelliJ Samouczek: tworzenie aplikacji Scala Maven dla platformy Apache Spark w usłudze HDInsight przy użyciu środowiska IntelliJ
Notesy Zeppelin Korzystanie z notesów Apache Zeppelin z klastrem Apache Spark w usłudze Azure HDInsight
Zdalne przesyłanie zadań za pomocą usługi Livy Przesyłanie zadań zdalnych do klastra usługi HDInsight Spark przy użyciu interfejsu API REST platformy Apache Spark
Apache Oozie Oozie to system przepływu pracy i koordynacji, który zarządza zadaniami usługi Hadoop.
Apache Livy Za pomocą usługi Livy można uruchamiać interaktywne powłoki Spark lub przesyłać zadania wsadowe do uruchamiania na platformie Spark.
Usługa Azure Data Factory dla platformy Apache Spark Działanie Spark w potoku usługi Data Factory wykonuje program Spark samodzielnie lub [na żądanie w klastrze usługi HDInsight.
Azure Data Factory for Apache Hive Działanie hive usługi HDInsight w potoku usługi Data Factory wykonuje zapytania Hive we własnym klastrze usługi HDInsight lub na żądanie.

Jak mogę monitorować i debugować zadania platformy Spark?

Opcja Dokumenty
Azure Toolkit for IntelliJ Niepowodzenie debugowania zadań platformy Spark za pomocą zestawu narzędzi Azure Toolkit for IntelliJ (wersja zapoznawcza)
Azure Toolkit for IntelliJ through SSH Lokalne lub zdalne debugowanie aplikacji platformy Apache Spark w klastrze usługi HDInsight za pomocą zestawu narzędzi Azure Toolkit for IntelliJ
Azure Toolkit for IntelliJ through VPN Zdalne debugowanie aplikacji Platformy Apache Spark za pomocą zestawu narzędzi Azure Toolkit for IntelliJ w usłudze HDInsight za pośrednictwem sieci VPN
Wykres zadań na serwerze historii platformy Apache Spark Debugowanie i diagnozowanie aplikacji platformy Apache Spark za pomocą rozszerzonego serwera historii platformy Apache Spark

Jak mogę wydajniejsze uruchamianie zadań platformy Spark?

Opcja Dokumenty
Pamięć podręczna we/wy Zwiększanie wydajności obciążeń platformy Apache Spark przy użyciu usługi Azure HDInsight IO Cache (wersja zapoznawcza)
Opcje konfiguracji Optymalizowanie zadań platformy Apache Spark

Jak mogę połączyć się z innymi usługami platformy Azure?

Opcja Dokumenty
Apache Hive w usłudze HDInsight Integrowanie platform Apache Spark i Apache Hive z usługą Hive Warehouse Połączenie or
Usługa Apache HBase w usłudze HDInsight Odczytywanie i zapisywanie danych bazy danych Apache HBase przy użyciu platformy Apache Spark
Platforma Apache Kafka w usłudze HDInsight Samouczek: używanie przesyłania strumieniowego ze strukturą platformy Apache Spark z platformą Apache Kafka w usłudze HDInsight
Azure Cosmos DB Usługa Azure Synapse Link dla usługi Azure Cosmos DB

Jakie są opcje magazynu?

Opcja Dokumenty
Azure Data Lake Storage Gen2 Korzystanie z usługi Azure Data Lake Storage Gen2 w połączeniu z klastrami usługi Azure HDInsight
Usługa Azure Data Lake Storage 1. generacji Używanie usługi Azure Data Lake Storage Gen1 z klastrami usługi Azure HDInsight
Azure Blob Storage Korzystanie z usługi Azure Storage w połączeniu z klastrami usługi Azure HDInsight

Następne kroki