Azure Databricks で Ray クラスターをスケーリングする

[アーティクル]
07/12/2024

自動スケーリング、ヘッドノード構成、異種クラスター、リソース割り当てなど、最適なパフォーマンスを得るために Ray クラスターのサイズを調整する方法について説明します。

自動スケールモードで Ray クラスターを作成する

Ray 2.8.0 以降では、Azure Databricks 上で開始された Ray クラスターで、Azure Databricks 自動スケーリングとの統合がサポートされます。この自動スケーリングとの統合により、Azure Databricks 環境内で内部的に Azure Databricks クラスターの自動スケーリングがトリガーされます。

自動スケールを有効にするには、次のコマンドを実行します。

2.10 より以前のバージョンの Ray の場合:

from ray.util.spark import setup_ray_cluster

setup_ray_cluster(
  num_worker_nodes=8,
  autoscale=True,
)

2.10 以降のバージョンの Ray の場合:

from ray.util.spark import setup_ray_cluster, shutdown_ray_cluster

setup_ray_cluster(
  min_worker_nodes=2,
  max_worker_nodes=4,
  num_cpus_per_node=4,
  collect_log_to_path="/dbfs/path/to/ray_collected_logs"
)

# Pass any custom Ray configuration with ray.init
ray.init(ignore_reinit_error=True)

ray.util.spark.setup_ray_cluster API は、Apache Spark 上に Ray クラスターを作成します。内部的には、バックグラウンド Apache Spark ジョブが作成されます。ジョブ内の各 Apache Spark タスクによって Ray ワーカーノードが作成され、Ray ヘッドノードがドライバー上に作成されます。引数 min_worker_nodes と max_worker_nodes は、Ray ワークロード用に作成して使用する Ray ワーカーノードの範囲を表します。引数 min_worker_nodes が未定義のままの場合は、max_worker_nodes 個のワーカーを使用できる固定サイズの Ray クラスターが開始されます。各 Ray ワーカーノードに割り当てられた CPU コアまたは GPU コアの数を指定するには、引数 num_cpus_worker_node (既定値: 1) または num_gpus_worker_node (既定値: 0) を設定します。

2.10 より以前のバージョンの Ray では、自動スケーリングが有効な場合、num_worker_nodes は Ray ワーカーノードの最大数を示します。 Ray ワーカーノードの既定の最小数は 0 です。この既定の設定は、Ray クラスターがアイドル状態の場合、Ray ワーカーノードが 0 にスケールダウンすることを意味します。これは、すべてのシナリオで高速な応答性を実現するには理想的ではない可能性がありますが、有効にするとコストを大幅に削減できます。

自動スケーリングモードでは、num_worker_nodes を ray.util.spark.MAX_NUM_WORKER_NODES に設定することはできません。

次の引数は、アップスケーリングとダウンスケーリングの速度を構成します。

autoscale_upscaling_speed は、現在のノード数の倍数として保留を許可するノード数を表します。値が大きいほど、より積極的なアップスケーリングになります。たとえば、これを 1.0 に設定すると、クラスターはいつでも最大 100% までサイズを大きくすることができます。
autoscale_idle_timeout_minutes は、アイドル状態のワーカーノードがオートスケーラーによって削除されるまでに必要な経過時間 (分) を表します。値が小さいほど、より積極的なダウンスケーリングになります。

Ray 2.9.0 以降では、autoscale_min_worker_nodes を設定して、Ray クラスターがアイドル状態のときにワーカーが 0 にスケールダウンされるのを防ぐこともできます。ワーカーが 0 になると、クラスターが終了します。

Ray ヘッドノードで使用されるリソースを構成する

既定では、Ray on Spark 構成に対して、Azure Databricks は Ray ヘッドノードに割り当てられたリソースを次のように制限します。

0 CPU コア
0 GPU
128 MB ヒープメモリ
128 MB オブジェクトストアメモリ

これは、Ray ヘッドノードが通常、Ray タスクの実行ではなく、グローバルな調整にのみ使用されるためです。 Apache Spark ドライバーノードのリソースは複数のユーザーで共有されるため、既定の設定によって、Apache Spark ドライバー側のリソースを節約できます。 Ray 2.8.0 以上では、Ray ヘッドノードで使用されるリソースを構成できます。 setup_ray_cluster API で次の引数を使用します。

num_cpus_head_node: Ray ヘッドノードで使用される CPU コアの設定
num_gpus_head_node: Ray ヘッドノードで使用される GPU の設定
object_store_memory_head_node: Ray ヘッドノードによるオブジェクトストアのメモリサイズの設定

異種クラスターのサポート

より効率的で費用効果の高いトレーニングを実行するために Ray on Spark クラスターを作成し、Ray ヘッドノードと Ray ワーカーノードの間で異なる構成を設定できます。ただし、Ray ワーカーノードはすべて同じ構成である必要があります。 Azure Databricks クラスターは異種クラスターを完全にサポートしているわけではありませんが、クラスターポリシーを設定すると、ドライバーとワーカーのインスタンスの種類が異なる Azure Databricks クラスターを作成できます。次に例を示します。

{
  "node_type_id": {
    "type": "fixed",
    "value": "i3.xlarge"
  },
  "driver_node_type_id": {
    "type": "fixed",
    "value": "g4dn.xlarge"
  },
  "spark_version": {
    "type": "fixed",
    "value": "13.x-snapshot-gpu-ml-scala2.12"
  }
}

Ray クラスター構成を調整する

各 Ray ワーカーノードに推奨される構成は、Ray ワーカーノードあたり最小 4 CPU コアです。 Ray ワーカーノードあたり 10 GB 以上のヒープメモリ。

そのため、ray.util.spark.setup_ray_cluster を呼び出す場合、Azure Databricks では、num_cpus_per_node を 4 以上の値に設定することをお勧めします。

各 Ray ワーカーノードのヒープメモリの調整に関する詳細については、次のセクションを参照してください。

Ray ワーカーノードのメモリ割り当て

各 Ray ワーカーノードは、ヒープメモリとオブジェクトストアメモリの 2 種類のメモリを使用します。

各種類に割り当てられるメモリサイズは、以下に示すように決定されます。

各 Ray ワーカーノードに割り当てられる合計メモリは RAY_WORKER_NODE_TOTAL_MEMORY = (SPARK_WORKER_NODE_PHYSICAL_MEMORY / MAX_NUMBER_OF_LOCAL_RAY_WORKER_NODES * 0.8) です。

MAX_NUMBER_OF_LOCAL_RAY_WORKER_NODES は、Apache Spark ワーカーノード上で起動できる Ray ワーカーノードの最大数です。これは引数 num_cpus_per_node または num_gpus_per_node によって決定されます。

引数 object_store_memory_per_node を設定しない場合、各 Ray ワーカーノードに割り当てられるヒープメモリサイズとオブジェクトストアメモリサイズは、RAY_WORKER_NODE_HEAP_MEMORY = RAY_WORKER_NODE_TOTAL_MEMORY * 0.7OBJECT_STORE_MEMORY_PER_NODE = RAY_WORKER_NODE_TOTAL_MEMORY * 0.3 です。

引数 object_store_memory_per_node を設定する場合は、RAY_WORKER_NODE_HEAP_MEMORY = RAY_WORKER_NODE_TOTAL_MEMORY - argument_object_store_memory_per_node です。

さらに、Ray ワーカーノードあたりのオブジェクトストアメモリサイズは、オペレーティングシステムの共有メモリによっても制限されます。最大値は OBJECT_STORE_MEMORY_PER_NODE_CAP = (SPARK_WORKER_NODE_OS_SHARED_MEMORY / MAX_NUMBER_OF_LOCAL_RAY_WORKER_NODES * 0.8) です。

SPARK_WORKER_NODE_OS_SHARED_MEMORY は、Apache Spark ワーカーノード用に構成された /dev/shm ディスクのサイズです。

スケーリングのベストプラクティス

Ray ワーカーノードごとに CPU と GPU の数を設定する

引数 num_cpus_worker_node を Apache Spark ワーカーノードあたりの CPU コア数に設定することをお勧めします。同様に、num_gpus_worker_node を Apache Spark ワーカーノードあたりの GPU 数に設定するのが最適です。この構成では、各 Apache Spark ワーカーノードによって、各 Apache Spark ワーカーノードのリソースを完全に利用する 1 つの Ray ワーカーノードが起動されます。

Apache Spark クラスターを起動するときに、Azure Databricks クラスター構成内で RAY_memory_monitor_refresh_ms 環境変数を 0 に設定します。

Apache Spark と Ray のハイブリッドワークロード用のメモリリソース構成

Azure Databricks クラスターで Spark と Ray のハイブリッドワークロードを実行する場合、Azure Databricks では、Spark Executor メモリを小さい値に削減することをお勧めします。たとえば、Azure Databricks クラスター構成で spark.executor.memory 4g を設定します。

Apache Spark Executor は GC を遅延トリガーする Java プロセスであり、Apache Spark データセットキャッシュによって大量の Apache Spark Executor メモリが使用されます。これにより、Ray で使用できる使用可能なメモリが減少します。メモリ不足エラーの可能性を回避するには、spark.executor.memory の構成を削減します。

Apache Spark と Ray のハイブリッドワークロード用の計算リソース構成

Azure Databricks クラスターで Spark と Ray のハイブリッドワークロードを実行する場合、クラスターノードまたは Ray ワーカーノードを自動スケーリング可能にすることをお勧めします。次に例を示します。

Azure Databricks クラスターを起動するために使用できるワーカーノード数が固定されている場合、Ray-on-Spark の自動スケーリングを有効にすることをお勧めします。 Ray ワークロードが実行されていない場合、Ray クラスターはスケールダウンされます。これにより、Apache Spark タスクで使用できるようにリソースを解放することができます。 Apache Spark タスクが完了し、Ray が再び使用されると、Ray-on-Spark クラスターは需要に合わせて再びスケールアップされます。

さらに、Azure Databricks クラスターと Ray-on-Spark クラスターを自動スケーリング可能にすることもできます。たとえば、Azure Databricks クラスターの自動スケーリング可能ノードを最大 10 ノードに構成し、Ray-on-Spark ワーカーノードを最大 4 ノードに構成し、Apache Spark ワーカーごとに 1 つの Ray ワーカーノードが動作するように設定した場合、Ray ワークロードは、このようなクラスター構成で最大 4 つのノードのリソースを使用できます。これに対し、Apache Spark ジョブは、最大 6 ノード相当のリソースを割り当てることができます。

次の方法で共有

Azure Databricks で Ray クラスターをスケーリングする

自動スケールモードで Ray クラスターを作成する

Ray ヘッドノードで使用されるリソースを構成する

異種クラスターのサポート

Ray クラスター構成を調整する

Ray ワーカーノードのメモリ割り当て

スケーリングのベストプラクティス

Ray ワーカーノードごとに CPU と GPU の数を設定する

Apache Spark と Ray のハイブリッドワークロード用のメモリリソース構成

Apache Spark と Ray のハイブリッドワークロード用の計算リソース構成

フィードバック

フィードバック

その他のリソース

次の方法で共有

Azure Databricks で Ray クラスターをスケーリングする

自動スケール モードで Ray クラスターを作成する

Ray ヘッド ノードで使用されるリソースを構成する

異種クラスターのサポート

Ray クラスター構成を調整する

Ray ワーカー ノードのメモリ割り当て

スケーリングのベスト プラクティス

Ray ワーカー ノードごとに CPU と GPU の数を設定する

Apache Spark と Ray のハイブリッド ワークロード用のメモリ リソース構成

Apache Spark と Ray のハイブリッド ワークロード用の計算リソース構成

フィードバック

フィードバック

その他のリソース

自動スケールモードで Ray クラスターを作成する

Ray ヘッドノードで使用されるリソースを構成する

Ray ワーカーノードのメモリ割り当て

スケーリングのベストプラクティス

Ray ワーカーノードごとに CPU と GPU の数を設定する

Apache Spark と Ray のハイブリッドワークロード用のメモリリソース構成

Apache Spark と Ray のハイブリッドワークロード用の計算リソース構成