NVIDIA Mellanox MQM9790-NS2F インフィニバンドスイッチ技術ソリューション

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F インフィニバンドスイッチ技術ソリューション

このテクニカルホワイトペーパーは、ネットワークアーキテクト、プリセールスエンジニア、およびオペレーションリーダーを対象としています。このペーパーでは、400Gb/s NDR InfiniBandスイッチである「MQM9790-NS2F」を中心に、RDMA/HPC/AIクラスターの低遅延相互接続の最適化に特化した、アーキテクチャ設計、主要技術、デプロイメントとスケーリング、およびオペレーションとモニタリングに関する詳細なガイダンスを提供します。

1. プロジェクトの背景と要件分析

最新のAIトレーニングおよびHPCワークロードは、クラスターを数千から数万のGPUへと拡大させています。このような環境では、ネットワーク相互接続が主要なボトルネックとなっています。従来のEthernetファブリックは、テールレイテンシとCPUオーバーヘッドに苦労する一方、従来のInfiniBandデプロイメントは、ポート密度と帯域幅が不足する可能性があります。主な要件には、サブマイクロ秒のスイッチングレイテンシ、パケットロスなしのフルラインレート転送、効率的なRDMAサポート、および数百のスイッチへのシームレスなスケーラビリティが含まれます。「NVIDIA Mellanox MQM9790-NS2F」は、NDR 400Gb/sの機能と高度なインネットワークコンピューティング機能により、これらのニーズに直接対応します。

2. ネットワークおよびシステムアーキテクチャ全体の設計

推奨されるアーキテクチャは、二層のFat-Tree(折り畳み型Closとも呼ばれる)トポロジーを採用しており、バイセクション帯域幅、コスト、およびスケーラビリティのバランスを取ります。リーフレベルでは、ConnectX-7 NDRアダプターを搭載したGPUサーバーがリーフスイッチに接続されます。スパインレベルでは、「MQM9790-NS2F InfiniBandスイッチ」ユニットがリーフ間のノンブロッキング接続を提供します。この設計により、完全なバイセクション帯域幅が保証されます。つまり、任意のリーフスイッチは、ワイヤスピードで他の任意のリーフと通信できます。大規模クラスターの場合、三層トポロジー(リーフ-スパイン-スーパー・スパイン)をデプロイでき、数万のGPUノードまでサポートできます。

  • リーフスイッチ: 64ポートOSFPモデル。各モデルは32台のサーバー(デュアルポート)に接続され、スパインへのアップリンクを備えています。
  • スパインレベル: MQM9790-NS2F 400Gb/s NDR 64ポートOSFPスイッチ。各ポートはリーフからのアップリンクとして機能します。完全にノンブロッキングな設計では、スパインポート数はリーフスイッチの数と等しくなる必要があります。
  • サブネット管理:専用または冗長化されたサブネットマネージャーが、パス計算、アダプティブルーティング、およびフェイルオーバーを処理します。

3. ソリューションにおけるNVIDIA Mellanox MQM9790-NS2Fの役割と主な機能

コアとなるスパインデバイス、およびオプションでリーフデバイスとしても、「MQM9790-NS2F」は、いくつかの重要な機能を提供します。

  • 400Gb/s NDRラインレートパフォーマンス: 64個のOSFPポートはそれぞれフルデュプレックス400Gb/sで動作し、合計51.2Tb/sのスイッチング容量を提供します。
  • 超低遅延とアダプティブルーティング: カットスルー・スイッチングにより、ポート間レイテンシは130ns未満に抑えられます。アダプティブルーティングは、複数のパスにトラフィックを動的に分散させ、ホットスポットを回避します。
  • インネットワークコンピューティング(SHARPv3): スケーラブルな階層的集約と削減をサポートし、CPU/GPUからコレクティブオペレーションをオフロードし、データ移動を最大10倍削減します。
  • RDMAネイティブ設計: ハードウェアアクセラレーションされたRDMAにより、CPUの関与を排除し、通信オーバーヘッドを劇的に削減する直接GPUメモリアクセスが可能になります。
  • 包括的なテレメトリとQoS: きめ細かな輻輳制御、バッファ監視、およびフロー分類により、混合ワークロードに対して決定論的なパフォーマンスを保証します。

MQM9790-NS2F データシート」によると、このスイッチはホットスワップ可能な電源ユニットとファン、冗長化された管理ポート、および完全な診断スイートもサポートしており、7x24の本番環境に適しています。

4. デプロイメントとスケーリングの推奨事項(一般的なトポロジーを含む)

一般的な2,048-GPUクラスターは、64個のリーフスイッチと32個のスパインスイッチを使用して構築できます。各リーフは32台のGPUサーバー(デュアルポート)に接続され、スパインへの32個のアップリンクを提供します。スパイン層は、「MQM9790-NS2F互換」ユニットで構成され、NDRオプティクスまたはDACケーブルを実行します。8,192 GPUへの拡張には、スーパー・スパイン層が追加され、複数のポッドが相互接続されます。

スケーリング時には、以下の点を考慮してください。

  • ケーブリングとオプティクス: 短いラック内リンクにはOSFP-to-OSFP DACを使用し、長距離にはOSFP-to-4xOSFPブレークアウトケーブルまたは光モジュールを使用します。「MQM9790-NS2F 仕様」のリーチとパワーバジェットに関する互換性を確認してください。
  • サブネットサイジング:単一のサブネットマネージャーは最大2,000ノードを処理できます。それ以上の場合は、複数のサブネットをデプロイするか、分散サブネットマネージャー設計を使用してください。
  • 冗長性:デュアルホームドサーバーと冗長化されたスパインスイッチは、単一障害点を排除します。「MQM9790-NS2F InfiniBandスイッチソリューション」は、適切なSM構成でヒットレスフェイルオーバーをサポートします。

5. オペレーション、モニタリング、トラブルシューティング、および最適化

効果的な運用には、可視性と自動化が必要です。以下のプラクティスが推奨されます。

  • モニタリング: NVIDIAのFabric ManagerおよびテレメトリAPIを使用して、ポートエラー、温度、消費電力、およびリンク使用率を追跡します。CRCエラーまたはシンボルエラーがしきい値を超えた場合にアラートを設定します。
  • トラブルシューティング:MQM9790-NS2F」は、ポートごとのカウンター、バッファ占有率ヒストグラム、および輻輳ログを提供します。パフォーマンス低下の場合は、アダプティブルーティング構成を確認し、すべてのファブリックリンクが対称であることを確認し、サポートされているコレクティブでSHARP集約が有効になっていることを確認してください。
  • 最適化:ワークロード(例:レイテンシ重視かスループット重視か)に基づいてアダプティブルーティングパラメータを調整します。大規模AIモデルの場合、輻輳制御を有効にし、PFCデッドロックを防ぐためにバッファ制限を設定します。容量追加を計画する際には、「MQM9790-NS2F 価格」とパフォーマンスのトレードオフを定期的にレビューしてください。多くの場合、スパインをアップグレードする方が、リーフを追加するよりもROIが高くなります。

MQM9790-NS2F 販売」を評価している組織は、ソフトウェアスタック(例:NCCL、OpenMPI)がSHARPv3やハードウェアベースの削減などのNDR機能をサポートしていることを確認してください。

6. まとめと価値評価

MQM9790-NS2F InfiniBandスイッチソリューション」は、要求の厳しいRDMA/HPC/AIクラスター向けの低遅延、高帯域幅ファブリックを構築するための明確なパスを提供します。その64ポート400Gb/s密度、サブマイクロ秒スイッチング、およびインネットワークコンピューティング機能は、最新ワークロードのスケーラビリティとパフォーマンスの課題に直接対応します。上記で概説したアーキテクチャ(Fat-Treeトポロジー、NDRコアスイッチ、およびRDMAネイティブ運用)を採用することにより、組織は線形GPUスケーリングを実現し、ジョブ完了時間を30%以上削減し、ファブリック管理を簡素化できます。詳細な計画については、公式の「MQM9790-NS2F データシート」および互換性ガイドを参照してください。カスタマイズされた設計について、または「MQM9790-NS2F 価格」と入手可能性についてお問い合わせいただくには、認定NVIDIAパートナーにご連絡ください。