次の方法で共有


基本サービスの移行の概要

ユーザーがオンプレミス環境で操作する主要なコンポーネントの 1 つは、ジョブ スケジューラ (Slurm、PBS、LSF など) です。 リフトアンドシフトのプロセス中、ユーザーはこれらのスケジューラと同等のレベルの操作を維持する必要があります。 ただし、リソースが静的ではなくなり、オンデマンドでプロビジョニングされる点が異なります。

このセクションでは、リソースのプロビジョニングと設定を行うリソース オーケストレーター、ユーザー認証の ID 管理、監視 (ノードの正常性チェックを含む)、リソースの状態と使用状況をより適切に把握するためのアカウンティングなど、ジョブ スケジューラに関連するコア コンポーネントについて説明します。 各コンポーネントは、HPC 環境のパフォーマンス、スケーラビリティ、セキュリティを確保する上で重要な役割を果たします。 Active Directory や確立されたアプリケーション ランタイムなどの使い慣れたオンプレミス テクノロジを利用することで、組織は継続性を維持しながらクラウドへの移行をよりスムーズに行うことができます。 クラウド環境の進化に合わせてこれらのサービスを段階的に自動化することを目標に、ツール、ベスト プラクティス、クイック スタート セットアップの包括的な概要が用意されています。

ユーザー ID

Active Directory サービスや LDAP などのテクノロジを使用すると、オンプレミスで使用されているユーザー アカウントとプロパティをクラウド環境で再利用できます。 既存のオンプレミス ユーザー ID テクノロジを可能な限り適用することをお勧めします。

監視

ジョブだけでなくインフラストラクチャ全体を監視する必要もあるため、監視は広範囲に及ぶ領域です。 このサービスでの主な推奨事項は、オンプレミス環境の既存のものだけでなく、コストやインフラストラクチャの状態に関連する、クラウドに移行する新しいメトリックも考慮することです。 クラウドでは、リソースは使用需要に応じてプロビジョニングおよびプロビジョニング解除されますが、これはオンプレミス環境とは異なります。 たとえば、ユーザー、部署、またはプロジェクトごとに、コスト関連のしきい値に関するアラートを作成すると有用な場合があります。

ノード正常性チェック

監視に関連して、ノードの正常性チェックは、プロビジョニングされたクラスター ノードがすべての正常性関連テストに合格したかどうかを確認するために適切です。 Azure が HPC インスタンスに提供するノードの正常性チェックを使用することをお勧めします。 ただし、必要に応じて新しいテストを追加することもできます。

自動スケーリング ルール

自動スケーリングは、オンプレミス環境と比較して重要な差別化要因です。 自動スケーリング ルールは、ノードがクラスターに参加するか離脱するタイミングを決定します。 予想されるすべてのノードを常にオンにしておくと、ノードとしてジョブを開始する効率が向上する可能性があります。 ただし、アイドル状態のときは、かなりコストの無駄になる可能性があります。 使用しない場合、ノードをオフにしておくことをお勧めします。 ビジネスでより迅速な起動時間が求められる場合は、一部のノードをオンにしたバッファーが有用な場合がありますが、このオプションは、ジョブの迅速な起動時間とコストのトレードオフを評価するために適切に定義する必要があります。

アプリケーションとランタイム

ここでは、既存のオンプレミス テクノロジを可能な限り使用することをお勧めします。 spack、easybuild、EESSI、またはコンパイルされたアプリケーションのリポジトリなどのテクノロジを再利用できます。 ただし、クラウド内のハードウェアはオンプレミス環境で使用できるものと異なる場合があることに注意してください。 そのため、スクリプトの再コンパイルと調整が必要であり、パフォーマンス上の利点が得られる可能性があります。

詳細については、次のコンポーネントの説明を確認してください。

ここでは、各コンポーネントについて説明します。 各セクションには次のものが含まれます。

  • コンポーネントの概要の説明
  • コンポーネントの要件 (つまり、コンポーネントから必要なもの)
  • 利用できるツールとサービス
  • HPC のリフト アンド シフトのコンテキストでのコンポーネントに関するベスト プラクティス
  • クイック スタート セットアップの例

クイック スタートの目的は、コンポーネントを使い始める方法がわかるようにすることです。 HPC クラウドのデプロイが成熟するに従い、Terraform や Bicep のようなソフトウェアとしてのインフラストラクチャ ツールなどを使って、コンポーネントの使用を自動化することが望まれます。