次の方法で共有


クラウド バーストとは

クラウド バーストは、プライベート クラウドとパブリック クラウドの組み合わせを使用して、組織が IT 需要のピークを処理できるようにするクラウド コンピューティングの構成です。 プライベート クラウド内のリソースが最大容量に達すると、オーバーフロー トラフィックはパブリック クラウドに送信され、サービスが中断されないようにします。 このセットアップでは、追加リソースに対する需要がある場合にのみ支払うので、柔軟性とコストを節約できます。

たとえば、アプリケーションはプライベート クラウド上で実行でき、ピーク時の需要を満たすために必要な場合にのみパブリック クラウドに "バースト" できます。 この方法は、常に使用されているとは限らない追加容量の維持に関連するコストを回避するのに役立ちます。

クラウド バーストは、ハイブリッド HPC (High-Performance コンピューティング) と呼ばれる処理のためにオンプレミスのワークロードをクラウドに送信できるようにするなど、さまざまなシナリオで使用できます。 これにより、ユーザーはクラウドのスケーラビリティと柔軟性にアクセスしながら、リソースの使用率とコスト効率を最適化できます。

概要

このドキュメントでは、Azure CycleCloud を使用してコンピューティング リソースをクラウドにバーストするように Slurm スケジューラをインストールして構成する手順について説明します。 オンプレミスの Slurm クラスターを Azure に拡張して、スケーラブルで柔軟なクラウド コンピューティング リソースにシームレスにアクセスできるようにすることで、ハイブリッド HPC 環境を作成する方法について説明します。 このガイドでは、ローカル インフラストラクチャとクラウドベースのソリューションを統合することで、コンピューティング容量を最適化する実際の例を示します。

Azure で CycleCloud を使用して Slurm クラウド バーストをセットアップするための要件

Azure サブスクリプション アカウント

Azure サブスクリプションを取得するか、サブスクリプションの所有者ロールに割り当てられる必要があります。

ネットワーク インフラストラクチャ

Slurm クラスターを完全に Azure 内に作成する場合は、ヘッド ノードと CycleCloud コンピューティング ノードの両方を 1 つの Azure Virtual Network (VNET) 内にデプロイする必要があります。

Slurm クラスター

オンプレミスの企業ネットワーク上にヘッド ノードを含むハイブリッド HPC クラスターを作成し、Azure でコンピューティング ノードを作成するには、 サイト間 VPN または ExpressRoute 接続を設定します。 これにより、ネットワークが Azure VNET にリンクされます。 ヘッド ノードは、Azure サービスにオンラインで接続できる必要があります。 これを設定するには、ネットワーク管理者と協力する必要がある場合があります。

ネットワーク ポートとセキュリティ

マスター ノード、CycleCloud サーバー、コンピューティング ノード間の通信を正常に行うには、次の NSG ルールを構成する必要があります。

サービス ポート プロトコル 方向 目的 必要条件
SSH(セキュアシェル) 22 TCP インバウンド/アウトバウンド Slurm マスター ノードへのコマンド ライン アクセスをセキュリティで保護する オンプレミスのファイアウォールと Azure NSG の両方で開く
Slurm コントロール (slurmctld、slurmd) 6817, 6818 TCP インバウンド/アウトバウンド Slurm Master とコンピューティング ノード間の通信 オンプレミスのファイアウォールと Azure NSG で開く
Munge認証サービス 4065 TCP インバウンド/アウトバウンド Slurm Master とコンピューティング ノード間の認証 オンプレミス ネットワークと Azure NSG の両方で開く
CycleCloud サービス 443 TCP アウトバウンド Slurm マスター ノードと Azure CycleCloud の間の通信 Slurm マスター ノードから Azure CycleCloud サービスへの送信接続を許可する
NFS ポート 2049 TCP インバウンド/アウトバウンド マスター ノードと Azure CycleCloud の間の共有ファイル システム アクセス オンプレミス ネットワークと Azure NSG の両方で開く
LDAP ポート (省略可能) 389 TCP インバウンド/アウトバウンド ユーザー管理のための一元化された認証メカニズム オンプレミス ネットワークと Azure NSG の両方で開く

Slurm ネットワーク構成ガイドを参照してください

ソフトウェア要件

  • OS バージョン: AlmaLinux リリース 8.x または Ubuntu 22.04
  • CycleCloud バージョン: 8.x 以降
  • CycleCloud-Slurm プロジェクトバージョン: 3.0.x

NFS ファイル サーバー

外部 Slurm Scheduler ノードと CycleCloud クラスターの間の共有ファイル システム。 Azure NetApp Files、Azure Files、NFS、またはその他の方法を使用して、両方の側に同じファイル システムをマウントできます。 この例では、スケジューラ VM を NFS サーバーとして使用しています。

一元化されたユーザー管理システム (LDAP または AD)

HPC 環境では、シームレスなユーザー アクセスとリソース管理のために、クラスター全体で一貫したユーザー ID (UID) とグループ ID (GID) を維持することが重要です。 LDAP や Active Directory (AD) などの一元化されたユーザー管理システムにより、すべてのコンピューティング ノードとストレージ システム間で UID と GID が確実に同期されます。

重要

セットアップ方法と手順の詳細については、Azure 上の CycleCloud を使用した Slurm Cloud Bursting に関するブログ記事を参照してください。

次のステップ