製造業向け HPC のストレージ

[アーティクル]
04/25/2024

ストレージアクセスは、HPC ワークロードパフォーマンスの計画の重要部分です。このマテリアルは、意思決定プロセスを効率化し、特定のストレージソリューションの機能 (または機能不足) に関する何らかの誤解を最小限に抑えるのに役立ちます。

設計上の考慮事項

必要なデータが、適切なタイミングで HPC クラスターマシンに確実に届くようにすることが重要です。また、それらの個々のマシンからの結果を迅速に保存し、追加の分析に使用できるようにします。

ワークロードトラフィックの分散

HPC 環境で生成および処理されるトラフィックの種類を考慮します。このステップは、複数の種類のワークロードを実行する場合や、このストレージを他の目的で使用しようとする場合に特に重要です。次のトラフィックの種類を考慮して記録します。

単一ストリームと複数ストリーム
読み取りトラフィックと書き込みトラフィックの比率
平均のファイルサイズと数
ランダムアクセスパターンとシーケンシャルアクセスパターン

データの局所性

次のカテゴリでは、データの場所を考慮します。ローカリティの認識は、データ移動戦略としてコピー、キャッシュ、または同期を使用できるかどうかを判断するのに役立ちます。事前に確認するローカリティ項目を次に示します。

ソースデータはオンプレミス、Azure、またはその両方にありますか。
結果データはオンプレミス、Azure、またはその両方にありますか。
Azure の HPC ワークロードは、ソースデータの変更タイムラインと連携しているか。
機密/HIPAA データですか。

パフォーマンス要件

ストレージソリューションのパフォーマンス要件は、通常、次のようにまとめられています。

単一ストリームの処理能力 (Gb/ps)
マルチストリームの処理能力 (Gb/ps)
予想される最大 IOPS
平均待機時間 (ミリ秒)

すべての考慮事項がパフォーマンスに影響を与えるため、これらの数値は特定のソリューションで達成すべきガイドを表します。たとえば、ワークフローの一部として集中的にファイルの作成と削除を行う HPC ワークロードがあります。これらの操作は、全体の処理能力に影響を与える可能性がある場合があります。

アクセス方法

必要なクライアントアクセスプロトコルを考慮し、プロトコルのどの機能が必要であるかを明確にします。 NFS と SMB にはさまざまなバージョンがあります。

考慮事項をいくつか以下に示します。

必要となる NFS/SMB のバージョン
見込まれるプロトコル機能 (ACL、暗号化)
並列ファイルシステムのソリューション

合計容量要件

Azure のストレージ容量が次の考慮事項です。これはソリューションの全体のコストを知るのに役立ちます。長期間にわたって大量のデータを格納する場合は、ストレージソリューションの一部として階層化を検討する必要がある可能性があります。階層化では、ホット階層で、コストは高いがパフォーマンスに優れたストレージと組み合わせて、低コストのストレージオプションを提供できます。したがって、容量要件を次のように評価します。

必要な合計容量
必要なホット階層の合計容量
必要なウォーム階層の合計容量
必要なコールド階層の合計容量

認証と承認のメソッド

LDAP サーバーや Active Directory 環境の使用などの認証と承認の要件は、アーキテクチャに適したサポートシステムが含まれることを確実にします。 Active Directory ユーザーへの UID/GID マッピングなどの機能をサポートする必要がある場合は、ストレージソリューションでその機能がサポートされていることを確認します。

考慮事項をいくつか以下に示します。

ローカル (ファイルサーバー上の UID/GID のみ)
ディレクトリ (LDAP、Active Directory)
Active Directory ユーザーへの UID/GID マッピングありか。

一般的な Azure Storage ソリューションの比較

カテゴリ	Azure Blob Storage	Azure Files	Azure Managed Lustre	Azure NetApp Files
ユースケース	Azure Blob Storage が最適なのは、データが一度取り込まれ、その後に少しの変更が加えられる、あるいは変更が加えられない読み取りの多い大規模なシーケンシャルアクセスのワークロードです。メンテナンスがほとんど必要ない場合、Blob Storage は総保有コストを最も低くなります。シナリオ例として、大規模な分析データ、処理能力を重視したハイパフォーマンスコンピューティング、バックアップとアーカイブ、自動運転、メディアレンダリング、ゲノムシーケンスなどがあります。	Azure Files は、ランダムアクセスワークロードに最適な高可用性サービスです。 NFS 共有の場合、Azure Files は POSIX ファイルシステムの完全なサポートを提供します。ビルトイン CSI ドライバー、また VM ベースのプラットフォームを使った Azure コンテナーインスタンス (ACI) および Azure Kubernetes Service (AKS) などのコンテナープラットフォームから容易に取り出すことができます。シナリオ例として、共有ファイル、データベース、ホームディレクトリ、従来のアプリケーション、ERP、CMS、高度な管理を必要としない NAS 移行、スケールアウトファイルストレージを必要とするカスタムアプリケーションなどがあります。	Azure Managed Lustre は、中規模から大規模の HPC ワークロードに最適なフルマネージドの並列ファイルシステムです。馴染みのある Lustre 並列ファイルシステムの機能、動作、パフォーマンスを提供し、長期的なアプリケーション投資をセキュリティで保護することで、アプリケーションの互換性を損なうことなく、クラウド内の HPC アプリケーションを有効にします。	高度な管理機能を備えた、NetApp を搭載したクラウド内のフルマネージドファイルサービスです。 NetApp Files は、ランダムアクセスを必要とするワークロードに適しており、幅広いプロトコルのサポートとデータ保護機能を備えています。シナリオ例として、豊富な管理機能を必要とするオンプレミスのエンタープライズ NAS 移行、SAP HANA のような待機時間の影響を受けやすいワークロード、待機時間の影響を受けやすいまたは IOPS を多用するハイパフォーマンスコンピューティング、あるいは同時マルチプロトコルアクセスを必要とするワークロードなどがあります。
使用可能なプロトコル	NFS 3.0 REST Data Lake Storage Gen2	SMB NFS 4.1 (いずれのプロトコル間にも相互運用性はありません)	Lustre	NFS 3.0 および 4.1 SMB
主要な機能	低遅延ワークロード向けの HPC キャッシュと統合。ライフサイクル、不変の BLOB、データフェールオーバー、メタデータインデックスなどの統合管理。	高可用性のためのゾーン冗長性。一貫した 1 桁のミリ秒の待機時間。容量に応じてスケーリングできる予測可能なパフォーマンスとコスト。	最大 2.5PB の高いストレージ容量。低 (最大 2 ミリ秒) の待機時間。新しいクラスターを数分でスピンアップします。 AKS と共にコンテナー化されたワークロードがサポートされています。	極めて短い待機時間 (ミリ秒未満)。 SnapMirror など、クラウドの豊富な NetApp ONTAP 管理機能。一貫したハイブリッドクラウドエクスペリエンス。
パフォーマンス (ボリュームごと)	最大 20,000 IOPS、最大 100 GiB/s の処理能力。	最大 100,000 IOPS、最大 80 GiB/s の処理能力。	最大 100,000 IOPS、最大 500 GiB/s の処理能力。	最大 460,000 IOPS、最大 36 GiB/s の処理能力。
価格	Azure Blob Storage の価格	Azure Files の料金	Azure Managed Lustre の価格	Azure NetApp Files の価格

独自ロールの並列ファイルシステム

NFS と同様に、マルチノード BeeGFS または Lustre ファイルシステムを作成できます。このようなシステムのパフォーマンスは、選択する仮想マシンの種類によって大きく異なります。 BeeGFS 向けの Azure Marketplace にあるイメージ、または Whamcloud という DDN による Lustre 実装を使用できます。 BeeGFS や DDN などのベンダーのサードパーティ製イメージを使用すると、サポートを購入できます。それ以外の場合は、BeeGFS と Lustre の両方を GPL ライセンスとして使用することができ、(マシンとディスクを超える) 追加料金もかかりません。これらのツールは、一時的なローカルディスク (スクラッチ用) または永続ストレージ用の Premium / Ultra SSD のいずれかを使用し、 Azure HPC スクリプトを使って簡単にロールアウトできます。

Cray ClusterStor

大規模なワークロードにおける最大の課題の 1 つは、大規模な Lustre 環境と共に動作する大規模なコンピューティングクラスターの純粋な "ベアメタル" パフォーマンスをレプリケートすることです (TB/秒の処理能力と、場合によってはペタバイトのストレージに関して)。 Azure Cray ClusterStor ソリューションを使用して、これらのワークロードを実行できるようになりました。このアプローチは、関連する Azure データセンターに配置された純粋なベアメタル Lustre デプロイです。 BeeGFS や Lustre などの並列ファイルシステムは、そのアーキテクチャによって最高のパフォーマンスを提供します。しかし、そのアーキテクチャには高い管理価格が伴い、これらのテクノロジの使用においても同様です。

次のステップ

次の記事には、製造業界の HPC 環境でのクラウド導入過程における各手順に関するガイダンスが掲載されています。

次の方法で共有

製造業向け HPC のストレージ

設計上の考慮事項

ワークロードトラフィックの分散

データの局所性

パフォーマンス要件

アクセス方法

合計容量要件

認証と承認のメソッド

一般的な Azure Storage ソリューションの比較

独自ロールの並列ファイルシステム

Cray ClusterStor

次のステップ

フィードバック

フィードバック

その他のリソース

次の方法で共有

製造業向け HPC のストレージ

設計上の考慮事項

ワークロード トラフィックの分散

データの局所性

パフォーマンス要件

アクセス方法

合計容量要件

認証と承認のメソッド

一般的な Azure Storage ソリューションの比較

独自ロールの並列ファイル システム

Cray ClusterStor

次のステップ

フィードバック

フィードバック

その他のリソース

ワークロードトラフィックの分散

独自ロールの並列ファイルシステム