メラノックス (NVIDIA メラノックス) 920-9B110-00FH-0D0 テクニカルホワイトペーパー:低遅延インターコネクト最適化

April 14, 2026

メラノックス (NVIDIA メラノックス) 920-9B110-00FH-0D0 テクニカルホワイトペーパー:低遅延インターコネクト最適化

ネットワークアーキテクト,プレセールエンジニア,およびオペレーションマネージャーに,ネットワークのネットワークの設計と管理のメラノックス (NVIDIA メラノックス) 920-9B110-00FH-0D0InfiniBand スイッチ.このプラットフォームが HPC と AI クラスタ環境における RDMA 密集型ワークロードの決定的で超低レイテンシーを実現する方法を調べました

1プロジェクト背景と要件分析

近代的なAIトレーニングフレームワーク (PyTorch DDP,DeepSpeed,Megatron) とHPCシミュレーションコード (CFD,天気モデリング,分子ダイナミクス) は,集団コミュニケーションの原始性に依存しています.伝統的なイーサネット・ファブリックは 3つの根本的な問題をもたらします:インカスト混雑によるパケット損失,ストア・アンド・フォワード・スイッチングによる可変レイテンシー,TCP/IPスタック処理による高CPUオーバーヘッド.これらの問題は,大規模な分散型トレーニングでGPUの無効時間30~50%を引き起こす.解決までの時間が長くなり 運用コストも増加しました

について920-9B110-00FH-0D0この課題は,ハードウェアベースのRDMA,切断式スイッチ,クレジットベースのフロー制御を提供するネイティブのInfiniBand技術によって解決されます.ターゲット用例には,64 〜 1 を管理するAI 研究室が含まれます.微秒未満の MPI レイテンシーを必要とする HPC センターや 裸の金属 AI インスタンスのファミリーを構築するクラウドプロバイダー

2ネットワークアーキテクチャの設計

推奨されたアーキテクチャは2階層の脂肪樹 (折りたたみクロス) トポロジーを使用し,バイセクション帯域幅,コスト,スケーラビリティをバランスします. 設計パラメータは最大512のコンピューティングノードを想定します.各機に2ポートのHDR ConnectX-6アダプタが搭載されている..

レベル 装置 ポート設定 量 (512 ノード)
920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR 40x HDRダウン + 8x HDRアップ 16個
脊椎 NVIDIA メラノックス 920-9B110-00FH-0D0 40x HDR (ダウンのみ) 8 単位

このコンフィギュレーションは,ノードあたり200Gb/sの完全なバイセクション帯域幅,全対全通信パターンの非ブロック性能,ホップ毎に130ns (カットスルー) の遅延を提供します.920-9B110-00FH-0D0 インフィニバンドスイッチ OPN ソリューション標準およびカスタムSKUの両方をサポートし,柔軟なポートブレークアウト構成 (例えば,HDRポート1つあたり4x50Gb/s) を可能にします.

3. 920-9B110-00FH-0D0の役割と主要な特徴

提案されたアーキテクチャ内では,NVIDIA メラノックス 920-9B110-00FH-0D0葉や脊柱の両方の層を統一した織物要素として機能する.主要な技術的差別性は以下のとおりである.

  • ハードウェアベースのRDMA:カーネルとCPUを完全にバイパスし,<1μs遅延でラインレートでメモリからメモリへの転送を可能にします.
  • アダプティブルーティング (AR):リアルタイムポート混雑に基づいてパケットを動的にリルーティングし,パケットの再配列なしで利用可能なすべてのパスにトラフィックを配布します.
  • 交通渋滞対策:ハードウェアレベルでの通知とスロットリングメカニズムは,ヘッド・オブ・ラインのブロックを防止します.920-9B110-00FH-0D0 データシート.
  • 鋭いテレメトリ統合されたハードウェアモニターは,プロアクティブな管理のためにポートごとにバッファの占有,遅延,エラーカウンタを提供します.

購入を評価するエンジニアは,完全な920-9B110-00FH-0D0 仕様標準的な300W未満の消費電力で,1U形式要素で最大40のHDRポート (それぞれ200Gb/s) をサポートすることを確認します.920-9B110-00FH-0D0対応するこの生態系には標準的なHDR光学モジュール (QSFP56) と5mまでの受動銅ケーブルがすべて含まれています

4展開と拡大に関する勧告

初期展開では段階的なアプローチを推奨します

  • 第1段階 (試験用 32ノード)単スイッチ構成で 1 つのリーフスイッチ (920-9B110-00FH-0D0) を展開する. ib_write_bw と MPI ベഞ്ച്マークを使用して RDMA 性能を検証する.920-9B110-00FH-0D0 販売中プロジェクト・マイルストーンに準拠する時間確保
  • 第2段階 (生産 ̇ 128ノード)4つの葉 + 2つの脊髄スイッチで完全な脂肪木を実装する.適応型ルーティングと混雑制御を有効にします.NCCLテスト (すべて削減,すべて集める) で拡張ストレステストを実行します.
  • ステージ3 (スケールアウト 512+ノード):16のリーフ+8のスピンスイッチに拡張する.マルチファブリックアーキテクチャ (分離されたコンピューティング/ストレージネットワーク) にアップグレードすることを検討する.920-9B110-00FH-0D0価格高いradixモデルと比較すると

総所有コストを計算する際には,920-9B110-00FH-0D0独立したTORスイッチ,ECN構成の複雑性 (RoCEとは異なり),および独自の混雑管理ライセンスの必要性をなくす.すべてInfiniBandにネイティブに含まれています.

5運用,監視,トラブルシューティング,最適化

生産管理NVIDIA メラノックス 920-9B110-00FH-0D0fabrics は,基本的なファブリック・ブルーアップのための OpenSM (サブネットマネージャ) とエンタープライズ規模のテレメトリと自動化のためのNVIDIA UFM (Unified Fabric Manager) の2つの主要なツールに依存しています.

  • 日々の健康診断`ibnetdiscover`を使ってファブリック・トポロジーを検証する, `ibstat`を使ってポートの状態を監視する, そして `perfquery`を使ってエラーカウンタを追跡する.
  • パフォーマンスの調整:決定的遅延のために適応ルーティングを"静的"または最大スループットのために"ダイナミック"に設定します.データトラフィックに対して制御を優先するためにSL2VLマッピングを調整します.
  • 共通の問題のトラブルシューティングリンク CRC のエラー は,通常,ケーブル/信号 完整性の問題を示します.920-9B110-00FH-0D0 データシートサブネットマネージャーのタイムアウトは,大型のファブリックで最大ホップカウントを調整する必要があることが多い.
  • 容量計画UFMの予測分析を活用して,港の利用率を予測し,雇用に影響を与える前にホットスポットを特定します.920-9B110-00FH-0D0 インフィニバンドスイッチ OPN柔軟なフィールドアップグレード可能な光学が 帯域幅の要求の変化に適応できるようにします

複数のベンダーを評価する組織では,920-9B110-00FH-0D0価格他のHDRスイッチに対して,操作のシンプルさを考慮すべきです.InfiniBandの単一のベンダー,垂直に統合されたスタックは,チーム間デバッグ時間を推定40%短縮します.

6概要 価値評価

についてメラノックス (NVIDIA メラノックス) 920-9B110-00FH-0D0決定的低レイテンシー相互接続を必要とするRDMA/HPC/AIクラスタのための生産準備の基礎を提供します.主要な価値提案には以下が含まれます:

  • 性能:ポートあたり最大200Gb/sで,スイッチ遅延が130ns未満で,線形GPUを数千のノードまでスケーリングすることができます.
  • 運用効率:ネイティブハードウェアオフロードは,ネットワーク I/O に CPU の介入をなくし,コンピューティング用のコアを解放する.
  • 未来に備えるEDR (100Gb/s) と後方互換性,ポート速度変換を通じてNDR (400Gb/s) と前方互換性.
  • 総所有コスト:計算する際920-9B110-00FH-0D0価格Ethernetの代替案と比較すると,GPUのアイドルタイム (15~25%の典型的な復旧) の削減と特有の混雑制御ライセンスの廃止による節約が含まれます.

建築家は,完全な920-9B110-00FH-0D0 データシート役員を参照してください920-9B110-00FH-0D0 仕様配線マトリックスと電力の予算化について920-9B110-00FH-0D0 販売中NVIDIAのパートナーネットワークを通じて利用可能になり オーダーメイドトポロジーのテストのために検証ラボを要請します