クラウド バーストは、プライベート クラウドとパブリック クラウドの組み合わせを使用して、組織が IT 需要のピークを処理できるようにするクラウド コンピューティングの構成です。 プライベート クラウド内のリソースが最大容量に達すると、オーバーフロー トラフィックはパブリック クラウドに送信され、サービスが中断されないようにします。 このセットアップでは、追加リソースに対する需要がある場合にのみ支払うので、柔軟性とコストを節約できます。
たとえば、アプリケーションはプライベート クラウド上で実行でき、ピーク時の需要を満たすために必要な場合にのみパブリック クラウドに "バースト" できます。 この方法は、常に使用されているとは限らない追加容量の維持に関連するコストを回避するのに役立ちます。
クラウド バーストは、ハイブリッド HPC (High-Performance コンピューティング) と呼ばれる処理のためにオンプレミスのワークロードをクラウドに送信できるようにするなど、さまざまなシナリオで使用できます。 これにより、ユーザーはクラウドのスケーラビリティと柔軟性にアクセスしながら、リソースの使用率とコスト効率を最適化できます。
概要
このドキュメントでは、Azure CycleCloud を使用してコンピューティング リソースをクラウドにバーストするように Slurm スケジューラをインストールして構成する手順について説明します。 オンプレミスの Slurm クラスターを Azure に拡張して、スケーラブルで柔軟なクラウド コンピューティング リソースにシームレスにアクセスできるようにすることで、ハイブリッド HPC 環境を作成する方法について説明します。 このガイドでは、ローカル インフラストラクチャとクラウドベースのソリューションを統合することで、コンピューティング容量を最適化する実際の例を示します。
Azure で CycleCloud を使用して Slurm クラウド バーストをセットアップするための要件
Azure サブスクリプション アカウント
Azure サブスクリプションを取得するか、サブスクリプションの所有者ロールに割り当てられる必要があります。
- Azure サブスクリプションを作成するには、サブスクリプションの作成 ドキュメントに移動します。
- 既存のサブスクリプションにアクセスするには、Azure portalに移動します。
ネットワーク インフラストラクチャ
Slurm クラスターを完全に Azure 内に作成する場合は、ヘッド ノードと CycleCloud コンピューティング ノードの両方を 1 つの Azure Virtual Network (VNET) 内にデプロイする必要があります。
オンプレミスの企業ネットワーク上にヘッド ノードを含むハイブリッド HPC クラスターを作成し、Azure でコンピューティング ノードを作成するには、 サイト間 VPN または ExpressRoute 接続を設定します。 これにより、ネットワークが Azure VNET にリンクされます。 ヘッド ノードは、Azure サービスにオンラインで接続できる必要があります。 これを設定するには、ネットワーク管理者と協力する必要がある場合があります。
ネットワーク ポートとセキュリティ
マスター ノード、CycleCloud サーバー、コンピューティング ノード間の通信を正常に行うには、次の NSG ルールを構成する必要があります。
サービス | ポート | プロトコル | 方向 | 目的 | 必要条件 |
---|---|---|---|---|---|
SSH(セキュアシェル) | 22 | TCP | インバウンド/アウトバウンド | Slurm マスター ノードへのコマンド ライン アクセスをセキュリティで保護する | オンプレミスのファイアウォールと Azure NSG の両方で開く |
Slurm コントロール (slurmctld、slurmd) | 6817, 6818 | TCP | インバウンド/アウトバウンド | Slurm Master とコンピューティング ノード間の通信 | オンプレミスのファイアウォールと Azure NSG で開く |
Munge認証サービス | 4065 | TCP | インバウンド/アウトバウンド | Slurm Master とコンピューティング ノード間の認証 | オンプレミス ネットワークと Azure NSG の両方で開く |
CycleCloud サービス | 443 | TCP | アウトバウンド | Slurm マスター ノードと Azure CycleCloud の間の通信 | Slurm マスター ノードから Azure CycleCloud サービスへの送信接続を許可する |
NFS ポート | 2049 | TCP | インバウンド/アウトバウンド | マスター ノードと Azure CycleCloud の間の共有ファイル システム アクセス | オンプレミス ネットワークと Azure NSG の両方で開く |
LDAP ポート (省略可能) | 389 | TCP | インバウンド/アウトバウンド | ユーザー管理のための一元化された認証メカニズム | オンプレミス ネットワークと Azure NSG の両方で開く |
Slurm ネットワーク構成ガイドを参照してください
ソフトウェア要件
- OS バージョン: AlmaLinux リリース 8.x または Ubuntu 22.04
- CycleCloud バージョン: 8.x 以降
- CycleCloud-Slurm プロジェクトバージョン: 3.0.x
NFS ファイル サーバー
外部 Slurm Scheduler ノードと CycleCloud クラスターの間の共有ファイル システム。 Azure NetApp Files、Azure Files、NFS、またはその他の方法を使用して、両方の側に同じファイル システムをマウントできます。 この例では、スケジューラ VM を NFS サーバーとして使用しています。
一元化されたユーザー管理システム (LDAP または AD)
HPC 環境では、シームレスなユーザー アクセスとリソース管理のために、クラスター全体で一貫したユーザー ID (UID) とグループ ID (GID) を維持することが重要です。 LDAP や Active Directory (AD) などの一元化されたユーザー管理システムにより、すべてのコンピューティング ノードとストレージ システム間で UID と GID が確実に同期されます。
重要
セットアップ方法と手順の詳細については、Azure 上の CycleCloud を使用した Slurm Cloud Bursting に関するブログ記事を参照してください。