製造業向け HPC のストレージ
ストレージ アクセスは、HPC ワークロード パフォーマンスの計画の重要部分です。 このマテリアルは、意思決定プロセスを効率化し、特定のストレージ ソリューションの機能 (または機能不足) に関する何らかの誤解を最小限に抑えるのに役立ちます。
設計上の考慮事項
必要なデータが、適切なタイミングで HPC クラスター マシンに確実に届くようにすることが重要です。 また、それらの個々のマシンからの結果を迅速に保存し、追加の分析に使用できるようにします。
ワークロード トラフィックの分散
HPC 環境で生成および処理されるトラフィックの種類を考慮します。 このステップは、複数の種類のワークロードを実行する場合や、このストレージを他の目的で使用しようとする場合に特に重要です。 次のトラフィックの種類を考慮して記録します。
- 単一ストリームと複数ストリーム
- 読み取りトラフィックと書き込みトラフィックの比率
- 平均のファイル サイズと数
- ランダム アクセス パターンとシーケンシャル アクセス パターン
データの局所性
次のカテゴリでは、データの場所を考慮します。 ローカリティの認識は、データ移動戦略としてコピー、キャッシュ、または同期を使用できるかどうかを判断するのに役立ちます。 事前に確認するローカリティ項目を次に示します。
- ソースデータはオンプレミス、Azure、またはその両方にありますか。
- 結果データはオンプレミス、Azure、またはその両方にありますか。
- Azure の HPC ワークロードは、ソースデータの変更タイムラインと連携しているか。
- 機密/HIPAA データですか。
パフォーマンス要件
ストレージ ソリューションのパフォーマンス要件は、通常、次のようにまとめられています。
- 単一ストリームの処理能力 (Gb/ps)
- マルチストリームの処理能力 (Gb/ps)
- 予想される最大 IOPS
- 平均待機時間 (ミリ秒)
すべての考慮事項がパフォーマンスに影響を与えるため、これらの数値は特定のソリューションで達成すべきガイドを表します。 たとえば、ワークフローの一部として集中的にファイルの作成と削除を行う HPC ワークロードがあります。 これらの操作は、全体の処理能力に影響を与える可能性がある場合があります。
アクセス方法
必要なクライアント アクセス プロトコルを考慮し、プロトコルのどの機能が必要であるかを明確にします。 NFS と SMB にはさまざまなバージョンがあります。
考慮事項をいくつか以下に示します。
- 必要となる NFS/SMB のバージョン
- 見込まれるプロトコル機能 (ACL、暗号化)
- 並列ファイル システムのソリューション
合計容量要件
Azure のストレージ容量が次の考慮事項です。 これはソリューションの全体のコストを知るのに役立ちます。 長期間にわたって大量のデータを格納する場合は、ストレージ ソリューションの一部として階層化を検討する必要がある可能性があります。 階層化では、ホット階層で、コストは高いがパフォーマンスに優れたストレージと組み合わせて、低コストのストレージ オプションを提供できます。 したがって、容量要件を次のように評価します。
- 必要な合計容量
- 必要なホット階層の合計容量
- 必要なウォーム階層の合計容量
- 必要なコールド階層の合計容量
認証と承認のメソッド
LDAP サーバーや Active Directory 環境の使用などの認証と承認の要件は、アーキテクチャに適したサポート システムが含まれることを確実にします。 Active Directory ユーザーへの UID/GID マッピングなどの機能をサポートする必要がある場合は、ストレージ ソリューションでその機能がサポートされていることを確認します。
考慮事項をいくつか以下に示します。
- ローカル (ファイル サーバー上の UID/GID のみ)
- ディレクトリ (LDAP、Active Directory)
- Active Directory ユーザーへの UID/GID マッピングありか。
一般的な Azure Storage ソリューションの比較
カテゴリ | Azure Blob Storage | Azure Files | Azure Managed Lustre | Azure NetApp Files |
---|---|---|---|---|
ユース ケース | Azure Blob Storage が最適なのは、データが一度取り込まれ、その後に少しの変更が加えられる、あるいは変更が加えられない読み取りの多い大規模なシーケンシャル アクセスのワークロードです。 メンテナンスがほとんど必要ない場合、Blob Storage は総保有コストを最も低くなります。 シナリオ例として、大規模な分析データ、処理能力を重視したハイパフォーマンス コンピューティング、バックアップとアーカイブ、自動運転、メディア レンダリング、ゲノム シーケンスなどがあります。 |
Azure Files は、ランダム アクセス ワークロードに最適な高可用性サービスです。 NFS 共有の場合、Azure Files は POSIX ファイル システムの完全なサポートを提供します。 ビルトイン CSI ドライバー、また VM ベースのプラットフォームを使った Azure コンテナー インスタンス (ACI) および Azure Kubernetes Service (AKS) などのコンテナー プラットフォームから容易に取り出すことができます。 シナリオ例として、共有ファイル、データベース、ホーム ディレクトリ、従来のアプリケーション、ERP、CMS、高度な管理を必要としない NAS 移行、スケールアウト ファイル ストレージを必要とするカスタム アプリケーションなどがあります。 |
Azure Managed Lustre は、中規模から大規模の HPC ワークロードに最適なフル マネージドの並列ファイル システムです。 馴染みのある Lustre 並列ファイル システムの機能、動作、パフォーマンスを提供し、長期的なアプリケーション投資をセキュリティで保護することで、アプリケーションの互換性を損なうことなく、クラウド内の HPC アプリケーションを有効にします。 |
高度な管理機能を備えた、NetApp を搭載したクラウド内のフル マネージド ファイル サービスです。 NetApp Files は、ランダム アクセスを必要とするワークロードに適しており、幅広いプロトコルのサポートとデータ保護機能を備えています。 シナリオ例として、豊富な管理機能を必要とするオンプレミスのエンタープライズ NAS 移行、SAP HANA のような待機時間の影響を受けやすいワークロード、待機時間の影響を受けやすいまたは IOPS を多用するハイ パフォーマンス コンピューティング、あるいは同時マルチ プロトコル アクセスを必要とするワークロードなどがあります。 |
使用可能なプロトコル | NFS 3.0 REST Data Lake Storage Gen2 |
SMB NFS 4.1 (いずれのプロトコル間にも相互運用性はありません) |
Lustre | NFS 3.0 および 4.1 SMB |
主要な機能 | 低遅延ワークロード向けの HPC キャッシュと統合。 ライフサイクル、不変の BLOB、データ フェールオーバー、メタデータ インデックスなどの統合管理。 |
高可用性のためのゾーン冗長性。 一貫した 1 桁のミリ秒の待機時間。 容量に応じてスケーリングできる予測可能なパフォーマンスとコスト。 |
最大 2.5PB の高いストレージ容量。 低 (最大 2 ミリ秒) の待機時間。 新しいクラスターを数分でスピンアップします。 AKS と共にコンテナー化されたワークロードがサポートされています。 |
極めて短い待機時間 (ミリ秒未満)。 SnapMirror など、クラウドの豊富な NetApp ONTAP 管理機能。 一貫したハイブリッド クラウド エクスペリエンス。 |
パフォーマンス (ボリュームごと) | 最大 20,000 IOPS、最大 100 GiB/s の処理能力。 | 最大 100,000 IOPS、最大 80 GiB/s の処理能力。 | 最大 100,000 IOPS、最大 500 GiB/s の処理能力。 | 最大 460,000 IOPS、最大 36 GiB/s の処理能力。 |
価格 | Azure Blob Storage の価格 | Azure Files の料金 | Azure Managed Lustre の価格 | Azure NetApp Files の価格 |
独自ロールの並列ファイル システム
NFS と同様に、マルチノード BeeGFS または Lustre ファイル システムを作成できます。 このようなシステムのパフォーマンスは、選択する仮想マシンの種類によって大きく異なります。 BeeGFS 向けの Azure Marketplace にあるイメージ、または Whamcloud という DDN による Lustre 実装を使用できます。 BeeGFS や DDN などのベンダーのサードパーティ製イメージを使用すると、サポートを購入できます。 それ以外の場合は、BeeGFS と Lustre の両方を GPL ライセンスとして使用することができ、(マシンとディスクを超える) 追加料金もかかりません。 これらのツールは、一時的なローカル ディスク (スクラッチ用) または永続ストレージ用の Premium / Ultra SSD のいずれかを使用し、 Azure HPC スクリプト を使って簡単にロールアウトできます。
Cray ClusterStor
大規模なワークロードにおける最大の課題の 1 つは、大規模な Lustre 環境と共に動作する大規模なコンピューティング クラスターの純粋な "ベアメタル" パフォーマンスをレプリケートすることです (TB/秒の処理能力と、場合によってはペタバイトのストレージに関して)。 Azure Cray ClusterStor ソリューションを使用して、これらのワークロードを実行できるようになりました。 このアプローチは、関連する Azure データ センターに配置された純粋なベアメタル Lustre デプロイです。 BeeGFS や Lustre などの並列ファイル システムは、そのアーキテクチャによって最高のパフォーマンスを提供します。 しかし、そのアーキテクチャには高い管理価格が伴い、これらのテクノロジの使用においても同様です。
次のステップ
次の記事には、製造業界の HPC 環境でのクラウド導入過程における各手順に関するガイダンスが掲載されています。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示