この記事には、Azure ローカル ラック対応クラスターのネットワーク設計と構成に関する情報が含まれています。 この構成には、ノードが建物内の異なる物理的な場所に配置される 1 つのクラスターが含まれます。
主な目的は、規制要件、安全プロトコル、または運用上の制約により、ハードウェアを異なる部屋に分離する必要があるファクトリ環境をサポートすることです。 この分離により、重要な産業ワークロードのクラスター機能を維持しながら、障害ドメインを分離できます。
ラック対応クラスター構成では、一方または両方の場所に異なるワークロードを配置することで、ディザスター リカバリー シナリオをサポートすることもできます。 この構成では、ソフトウェア定義ネットワーク (SDN) またはレイヤー 2 仮想ネットワークの有無にかかわらず、環境がサポートされます。
ネットワークの主要な原則
ラック対応クラスターのセットアップは、最大 4 + 4 ノードの環境をサポートすることを目的としています。この場合、クラスターは 2 つのローカル可用性ゾーンに分割され、部屋間の待機時間は 1 ミリ秒以下です。 この待ち時間の短い要件により、物理的な分離にもかかわらず、クラスターは工場の自動化、リアルタイム監視、およびその他の時間に依存する産業アプリケーションに適したパフォーマンス特性を維持します。
- RDMA (リモート ダイレクト メモリ アクセス) トラフィックは、スパイン スイッチ レイヤーに走査されません。
- RDMA トラフィックは Top of Rack (TOR) レイヤー専用であり、異なるゾーン内の隣接する TOR に移動できます。
- ストレージ VLAN (711、712) は、IP 構成のないレイヤー 2 ブロードキャスト ドメインです。
- 会議室間の待機時間は、RDMA トラフィックに対して 1 ミリ秒以下にする必要があります。
この環境には、ラック対応クラスターをサポートするために、両方の部屋にまたがる 2 つのスパイン デバイスが含まれています。 これらのスパイン デバイスは、管理とコンピューティングという 2 つの主要なネットワーク意図をホストします。 設計は単一のコンピューティング意図を示しますが、顧客の要件に応じて複数の意図をサポートできます。 ストレージ VLAN (711、712) は TOR 層で排他的にホストされ、IP 設定なしでレイヤ 2 ブロードキャスト ドメインとして動作します。
Important
ネットワーク ダイアグラムでは、この記事で参照されている VLAN ID とは異なる簡略化された名前付け規則が使用されています。
- 図の SMB1 = VLAN 711 (ストレージインテント 1)
- 図の SMB2 = VLAN 712 (ストレージインテント 2)
- 図の管理 = VLAN 7 (管理意図)
- ダイアグラムでのコンピューティング = VLAN 8 (コンピューティングインテント)
図のこの名前付け規則は、わかりやすくするために、特定の VLAN ID ではなく機能目的に焦点を当てています。
TOR スイッチアーキテクチャ
TOR スイッチは、次の接続パスを持つレイヤ 2 スイッチとして動作します。
- スパイン アップリンク: 管理トラフィックとコンピューティング トラフィックを伝達します。
- 記憶域リンク: ルーム間の S2D 通信をサポートします。
- ルーム間リンク: ゾーン間の RDMA トラフィックのプライマリ接続。
コア要件:
- 会議室間リンクでは、TOR デバイス間のストレージインテント トラフィックをサポートする必要があります。
- 管理とコンピューティング ネットワークの意図には、スパインレイヤーを介してすべての TOR デバイスにレイヤー 2 拡張機能が必要です。
- RDMA のルーム間リンクの待機時間は、1 ミリ秒以下にする必要があります。
- ストレージ トラフィックには最小 10GbE インターフェイスが必要で、最適なパフォーマンスを実現するためには 25GbE が推奨されます。
- ジャンボ フレームのサポート (MTU 9216) は、ホスト ノードがジャンボ フレームをサポートする場合にのみ iWARP 実装に必要です。
次のスイッチ機能が必要です。
- 無損失イーサネットのデータ センター ブリッジング (DCB) のサポート。
- RDMA トラフィック クラスの優先順位フロー制御 (PFC)。
- 帯域幅割り当ての拡張された伝送選択 (ETS)。
- 自動ホスト構成用の DCB TLV を使用した LLDP。
- 記憶域/非ストレージ VLAN 分離のためのスパニング ツリー プロトコル(STP)、MSTP (マルチ スパニング ツリー プロトコル)は、この環境のテストで使用されました。
Important
RDMA QoS 要件:RDMA (SMB) トラフィックをサポートするすべてのインターフェイスは、QoS ポリシーを実装するために必要です。 これには、ホスト向けのストレージ インターフェイスと、ストレージ VLAN (711、712) を含むルーム間リンクの両方が含まれます。 クラスター全体でロスレスで待機時間の短い RDMA パフォーマンスを維持するには、適切な QoS 構成が不可欠です。
設計上の考慮事項:
- バッファーの割り当て: PFC一時停止フレームを処理するために、適切なバッファー深度を保証する。
- ポート密度: ノードあたり最小 4 つのポート (2 倍の管理/コンピューティング、2 倍のストレージ) を計画します。
- 電源と冷却: DCB 対応スイッチの消費電力が増加します。
- ファームウェアの互換性: サポートされているネットワーク デバイスと適切なファームウェア レベルについては、「 Azure Local の物理ネットワーク要件 」を参照してください。
- RDMA プロトコルに関する考慮事項: RoCEv2 ではジャンボ フレームは必要ありません。iWARP には、ホスト ノードでサポートされている場合にのみジャンボ フレームが必要です。
RDMA トラフィック フローの例: ノード 1 RDMA NIC 1 →ローカル TOR →ルーム間リンク→リモート TOR → ノード 3 NIC 1 (合計待機時間≤ 1 ミリ秒)
オプション A: 専用ストレージ リンク
この設計は、次の特性を持つ 4 つの TOR スイッチ (TOR-1 から TOR-4) を備えています。
ノード構成:
- ノードごとに 2 つの物理ネットワーク カード (合計 4 つのインターフェイス)。
- NIC 1: 管理 (VLAN 7) およびコンピューティング (VLAN 8) トラフィック用のスイッチ埋め込みチーミング (SET)。
- NIC 2: 単一 VLAN タグ付け (711、712) を使用する専用ストレージ インターフェイス。
スイッチの構成:
- ストレージ インターフェイス: インターフェイスごとに 1 つの VLAN タグ。
- 管理/コンピューティング インターフェイス: すべての非ストレージ VLAN タグをサポートします。
- 管理トラフィックとコンピューティング トラフィック専用のマルチシャーシ リンク アグリゲーション (MLAG)。
- ストレージ トラフィックは MLAG をバイパスして RDMA セッション ホップを最小限に抑えます。
ルーム間接続:
- 2 つの独立したバンドルされたリンク セットは、部屋間トラフィックをサポートします。
- VLAN 711: TOR1 と TOR3 の間の専用リンク。
- VLAN 712: TOR2 と TOR4 の間の専用リンク。
注
記憶域の意図は、分離されたネットワーク設計原則に従って、特定の TOR デバイス間で意図的に分散されます。 各ノードのストレージ インターフェイスは、インターフェイスごとに 1 つのストレージ インテントのみをサポートします。 この設定は、マルチ スパニング ツリー プロトコル (MSTP) を使用して、ストレージ VLAN と非ストルジ VLAN に対して個別のスパニング ツリー グループを使用して検証されています。
オプション B: 集約ストレージ リンク
オプション B は、オプション A に似た集約されたセットアップを実装しますが、ストレージ接続が集約されています。
ストレージの構成:
- RDMA ストレージ トラフィックでは、SMB1 インターフェイスと SMB2 インターフェイスが使用されます。
- TOR1 と TOR2: 2 つのポート チャネル (700、701) は、クロスルーム接続を提供します。
- 仮想ポート チャネル (vPC) は、mlAG サービスに vPC マッピングへの Port-Channel を提供します。
接続の詳細:
- TOR3: 単一ポート チャネル 700 は TOR1/TOR2 (vPC ID 700) に接続します。
- TOR4: 単一ポート チャネル 701 は TOR1/TOR2 (vPC ID 701) に接続します。
室内 MLAG のリンク: VLAN 7、8、711、712 をサポートする完全メッシュ接続:
- TOR1 ↔ TOR2
- TOR3 ↔ TOR4
トラフィック パターン: ルーム間トラフィックは、リンク ハッシュ アルゴリズムに基づく 2 つのシナリオに従います。
- 直接ルーム間接続 (最適なパス) TOR1 ↔ TOR3 TOR2 ↔ TOR4
- MLAG トラバーサル(潜在的な待機時間の増加)を伴う部屋間接続 TOR1 ↔ TOR4 ↔ TOR3 と TOR2 ↔ TOR3 ↔ TOR4
オプション C: 1 室につき 1 TOR
オプション C は、部屋ごとに 1 つの TOR デバイスを使用してアーキテクチャを簡略化します。
主な特性:
- 可用性ゾーンごとに 1 つの TOR。
- SMB1 と SMB2 は、同じ TOR デバイスでホストされます。
- ルーム間リンクは冗長化(結合)され、両方のストレージVLANを転送できます。
- ゾーン内に TOR 冗長性がありません。
アップリンクの構成: スパイン接続は、デプロイされるスパイン スイッチの数に応じて、単一リンクまたはバンドル リンクにすることができます。
このオプションにより管理が簡素化され、複雑さが軽減されますが、メンテナンス中またはデバイス障害時にゾーンごとに単一障害点も作成されます。
オプション D: クロスルーム ノード接続
オプション D は、ノードが両方の部屋の TOR デバイスに接続する分散設計を表します。
ノード接続パターン (ノードごと):
- SET team NIC 0: ローカル TOR1 (ルーム 1) に接続します。
- SET チーム NIC 1: リモート TOR2 (ルーム 2) に接続します。
- SMB1 NIC 0: TOR1 (ルーム 1) に接続します。
- SMB2 NIC 1: TOR2 (ルーム 2) に接続します。
インフラストラクチャの要件:
- 各ノードからTORスイッチに至る接続のために、部屋をまたぐ専用ファイバーリンクがあります。
- すべてのノード インターフェイスのクロスルーム ケーブル接続。
- TOR 間リンクは、管理とコンピューティングインテントトラフィックをサポートします。
高可用性オプション:
- TOR 間リンクの vPC/HSRP 構成。
- デプロイを簡略化するための HSRP のみの構成。
会議室間リンクの構成と要件
ルーム間リンクの構成については、「 ルーム間接続」を参照してください。
構成を切り替えるホスト
オプション A と B
オプション A とオプション B にも同様の構成があり、ルーム環境をサポートする 2 つの TOR デバイスが備わっています。
管理/コンピューティング NIC はスイッチ埋め込みチーミング (SET) チームとして構成されており、環境をサポートするために適切な VLAN タグを持つ標準スイッチ トランク構成のみが必要です。
管理/コンピューティング インターフェイスの構成:
interface Ethernet1/1
description Management-Compute-Host-Connection
no cdp enable
switchport
switchport mode trunk
switchport trunk native vlan 7
switchport trunk allowed vlan 8
spanning-tree port type edge trunk
mtu 9216
logging event port link-status
no shutdown
ストレージ インターフェイスの構成:
interface ethernet 1/15
description Storage-Intent-SMB1-Host-Interface
switchport
switchport mode trunk
switchport trunk native vlan 99
switchport trunk allowed vlan 711
spanning-tree port type edge trunk
mtu 9216
service-policy type qos input AZS_SERVICES
priority-flow-control mode on send-tlv
logging event port link-status
no shutdown
| パラメーター/設定 | Description |
|---|---|
switchport trunk native vlan 99 |
ブラックホール VLAN を割り当てて、スプリアスなタグなしネットワーク トラフィックをキャプチャします。 |
switchport trunk allowed vlan 711 |
このストレージ インターフェイスの VLAN 711 トラフィックのみを伝送するようにトランクを制限します。 |
service-policy type qos input AZS_SERVICES |
RDMA トラフィックの最適化に QoS ポリシーを適用します。 |
priority-flow-control mode on send-tlv |
LLDP TLV 伝送を使用して優先度フロー制御 (PFC) を有効にします。 |
spanning-tree port type edge trunk |
ホスト側ポートの STP を最適化します。 |
mtu 9216 |
ジャンボ フレームを有効にします。 ホスト ノードがジャンボ フレームをサポートしている場合にのみ、iWARP に必要です。 |
オプション C
オプション C は、すべての Azure ローカル ネットワーク意図 (管理、コンピューティング、SMB1、SMB2) をサポートする単一の TOR デバイスを利用します。
一般的なラック対応クラスター構成では、ストレージインテントはルーム内の異なる TOR デバイスに分離されます。 この簡素化された構成により、すべての意図が 1 つのデバイスに統合され、異なるインターフェイスと VLAN を介した論理的な分離が維持されます。
完全な単一ノード構成の次の例を参照してください。
管理/コンピューティング インターフェイス (SET チーム):
interface ethernet 1/1
description Management-Compute-Host-Connection-Primary
no cdp enable
switchport
switchport mode trunk
switchport trunk native vlan 7
switchport trunk allowed vlan 8
spanning-tree port type edge trunk
mtu 9216
logging event port link-status
no shutdown
!
interface ethernet 1/2
description Management-Compute-Host-Connection-Secondary
no cdp enable
switchport
switchport mode trunk
switchport trunk native vlan 7
switchport trunk allowed vlan 8
spanning-tree port type edge trunk
mtu 9216
logging event port link-status
no shutdown
ストレージ インターフェイス (SMB1 および SMB2):
interface ethernet 1/15
description Storage-Intent-SMB1-Host-Interface
switchport
switchport mode trunk
switchport trunk native vlan 99
switchport trunk allowed vlan 711
spanning-tree port type edge trunk
mtu 9216
service-policy type qos input AZS_SERVICES
priority-flow-control mode on send-tlv
logging event port link-status
no shutdown
!
interface ethernet 1/16
description Storage-Intent-SMB2-Host-Interface
switchport
switchport mode trunk
switchport trunk native vlan 99
switchport trunk allowed vlan 712
spanning-tree port type edge trunk
mtu 9216
service-policy type qos input AZS_SERVICES
priority-flow-control mode on send-tlv
logging event port link-status
no shutdown
オプション D
オプション D は、RDMA ストレージ トラフィックをサポートするルーム間リンクの要件を削除します。 代わりに、ノードは両方の部屋の TOR デバイスに直接接続します。 各ルームは TOR を 1 つ維持しますが、TOR は両方の部屋のすべてのノードに直接接続できます。 この構成には、追加のファイバー インフラストラクチャが必要ですが、分散型接続によって高可用性が提供されます。
主な特性:
- TOR1 (ルーム 1):サービス管理、コンピューティング、および SMB1 トラフィック。
- TOR2 (ルーム 2):サービス管理、コンピューティング、および SMB2 トラフィック。
- ルーム間接続: 各ノードは、冗長性のために両方の TOR に接続します。
TOR1 構成の次の例を参照してください。
interface Ethernet1/1
description Management-Compute-Cross-Room-Connection
no cdp enable
switchport
switchport mode trunk
switchport trunk native vlan 7
switchport trunk allowed vlan 8
spanning-tree port type edge trunk
mtu 9216
logging event port link-status
no shutdown
!
interface ethernet 1/15
description Storage-Intent-SMB1-Cross-Room-Interface
switchport
switchport mode trunk
switchport trunk native vlan 99
switchport trunk allowed vlan 711
spanning-tree port type edge trunk
mtu 9216
service-policy type qos input AZS_SERVICES
priority-flow-control mode on send-tlv
logging event port link-status
no shutdown
QoS ポリシー
QoS 構成では、データ センター ブリッジング (DCB) フレームワークを使用して、RoCEv2 と iWARP の両方のテクノロジを含む RDMA トラフィックの無損失で待機時間の短い環境を確立します。
Important
必須の QoS 実装: 次のような RDMA (SMB) トラフィックを伝送するすべてのインターフェイスに QoS ポリシーを適用します。
- ホスト向けストレージ インターフェイス (VLAN 711、712)。
- ストレージ トラフィックをサポートするルーム間リンク。
- ポート チャネルと、ストレージ VLAN を含む集約されたリンク。
適切な QoS ポリシーがないと、パケット損失、パフォーマンスの低下、クラスターの不安定性が発生する可能性があります。
既定の Azure ローカル構成:
- RDMA トラフィック: 優先度フロー制御 (PFC) クラス 3 に割り当てられます。
- クラスタ ハートビート: PFC クラス 7 に割り当てられます(最も優先順位が高い)。
- 帯域幅の割り当て: RDMA トラフィック用に予約されている最小 50%。
- クラスター トラフィック予約: 25 GbE インターフェイスの場合は 1%、10 GbE インターフェイスの場合は 2%。
主なテクノロジ:
- 優先度フロー制御 (PFC): 重要なトラフィック クラスに無損失伝送を提供します。
- 拡張伝送選択 (ETS): 特定のトラフィック クラスに帯域幅予約を割り当てます。
- 重み付けランダム早期検出 (WRED): 優先順位の低いトラフィックをドロップすることでキューの輻輳を管理します。
- 拡張輻輳通知 (ECN):RoCEv2 環境でのインキャスト シナリオを防止します。
RoCEv2 をサポートする環境では、インキャストの状況を防ぐために ECN が実装されています。 ノード間の接続パスに沿って輻輳が検出されると、DSCP フィールドがマークされ、宛先デバイスは送信者にトラフィック フローを減らすように指示します。
詳細については、「 Azure ローカル QoS ポリシー」を参照してください。
ソフトウェア定義ネットワーク
Azure ローカル ラック対応クラスターでは、高度なネットワーク仮想化とマイクロセグメント化の要件に対するソフトウェア定義ネットワーク (SDN) の実装がサポートされています。 SDN 統合により、一元化されたネットワーク ポリシー管理と、可用性ゾーン間のワークロード間のセキュリティ分離が強化されます。
詳細については、 ソフトウェア定義ネットワーク構成ガイドを参照してください。
次のステップ
この機能は、Azure Local 2510 以降で使用できます。