HDInsight で Apache Spark アプリケーションを最適化する

この記事では、Azure HDInsight で Apache Spark アプリケーションを最適化するための戦略を概説します。

概要

次の一般的なシナリオに直面する可能性があります

Apache Spark ジョブのパフォーマンスは、複数の要因によって決まります。これらのパフォーマンス要因は次のとおりです。

ResourceManager または NodeManager アラートの有無を確認します
YARN > SUMMARY で ResourceManager と NodeManager の状態を確認します。すべての NodeManager が [Started](開始済み) になっているか、アクティブな ResourceManager のみが [Started](開始済み) になっている必要があります。

以下を介して Yarn UI にアクセスできるかどうかを確認します。https://YOURCLUSTERNAME.azurehdinsight.net/yarnui/hn/cluster
以下で ResourceManager のログに例外またはエラーがあるかどうかを確認します。/var/log/hadoop-yarn/yarn/hadoop-yarn-resourcemanager-*.log

詳細については、YARN の一般的な問題に関するページを参照してください。

次を介して YARN UI に移動し、YARN スケジューラのメトリックを確認します。https://YOURCLUSTERNAME.azurehdinsight.net/yarnui/hn/cluster/scheduler
または、YARN Rest API を使用して、YARN スケジューラのメトリックを確認することもできます。たとえば、「 curl -u "xxxx" -sS -G "https://YOURCLUSTERNAME.azurehdinsight.net/ws/v1/cluster/scheduler" 」のように入力します。 ESP の場合は、ドメイン管理者ユーザーを使用する必要があります。

すべての Executor リソース: spark.executor.instances * (spark.executor.memory + spark.yarn.executor.memoryOverhead) and spark.executor.instances * spark.executor.cores. 詳細については、Spark Executor の構成に関するページを参照してください。
ApplicationMaster
- クラスターモードでは、spark.driver.memory と spark.driver.cores を使用します
- クライアントモードでは、spark.yarn.am.memory+spark.yarn.am.memoryOverhead と spark.yarn.am.cores を使用します

Note

yarn.scheduler.minimum-allocation-mb <= spark.executor.memory+spark.yarn.executor.memoryOverhead <= yarn.scheduler.maximum-allocation-mb

Spark UI または Spark History UI を使用して、以下の現象を特定する必要があります。

詳細については、Spark アプリケーションの監視に関するページを参照してください。

キャッシュ、データスキューの許可など、これらの課題を克服するのに役立つ多くの最適化があります。

次の各記事では、Spark の最適化のさまざまな側面に関する情報を確認できます。

spark.sql.shuffle.partitions は既定で 200 です。結合または集計のデータをシャッフルする場合は、ビジネスニーズに基づいて調整できます。
spark.sql.files.maxPartitionBytes は HDI では既定で 1G です。ファイルの読み取り時に 1 つのパーティションに取り込める最大バイト数です。この構成は、Parquet、JSON、ORC などのファイルベースのソースを使用する場合にのみ有効です。
Spark 3.0 の AQE。「アダプティブクエリの実行」を参照してください。