NVIDIA Mellanox MCX653106A-HDAT サーバーアダプター 技術ホワイトペーパー

April 30, 2026

NVIDIA Mellanox MCX653106A-HDAT サーバーアダプター 技術ホワイトペーパー

このテクニカルホワイトペーパーは,ネットワークアーキテクター,プレセールエンジニア,およびオペレーションマネージャー向けです.低レイテンシーデータセンターネットワークNVIDIA メラノックス MCX653106A-HDATRDMA/RoCE トランスポートと測定可能なサーバーのスループットゲインに焦点を当てた NIC

1プロジェクト背景と要件分析

現代のデータセンターのワークロードは,NVMe-oFストレージファブリック,分散型AIトレーニング,高周波取引,リアルタイム分析など,ネットワークインフラストラクチャに極端な要求をします.伝統的なTCP/IPスタック処理は3つの基本的なボトルネックをもたらします:高いCPUオーバーヘッド (コアサイクルの50%を超える場合が多い),カーネルバイパス制限による変動遅延,およびプロトコル処理オーバーヘッドによる効果的なスループット減少.組織は,アプリケーションロジックのためにCPUリソースを解放しながら,マイクロ秒未満の遅延でラインレート帯域幅を提供するソリューションを必要とします.主要な要件は,ハードウェアからオフロードされたRDMA,損失のないRoCE輸送,既存のイーサネットファブリックとのシームレスな統合,監視とトラブルシューティングのための包括的な運用ツール.

2ネットワーク・システム・アーキテクチャの設計

提案されたアーキテクチャは,RoCE輸送に最適化された2階層Clos (spine-leaf) トポロジーを採用している.リーフスイッチは,DCB (優先流量制御,RDMAトラフィックに対する損失のない動作を保証するために構成されている.. 脊髄スイッチは,組織全体で任意の通信をブロックしないことを可能にします. 各コンピューティングとストレージノードは,MCX653106A-HDAT イーサネット アダプター カード, 活性結合で構成された100GbEポートを2つ接続してリーフスイッチに接続する.このアーキテクチャは,通常の TCP/IP トラフィック (ベスト・エフフォア・キュー) から RDMA トラフィック (PFC が有効な専用優先キュー) を分離する.VLANセグメンテーションはRDMAドメインを隔離し,ルーティングは必要に応じてサブネット間の通信を処理する.

3NVIDIA Mellanox MCX653106A-HDATの役割と主要機能

についてMCX653106A-HDAT ConnectX アダプター PCIe ネットワーク カードこのソリューションの基盤として機能します.PCIe 4.0 x16 ホストインターフェースを搭載した ConnectX-6 アーキテクチャに構築されています.RDMA ワークロード下で 600ns 未満のレイテンシーで,デュアルポート 100GbE (またはシングルポート 200GbE) のスループットを提供します.この設計で活用された主な特徴は:

  • ハードウェア RDMA & RoCEオフロード:RDMA動詞の完全なオフロード,データ移動のためのホストCPUの関与をなくす.RoCE v1とv2の両方をサポートする.
  • NVMe-oF加速器NVMeコマンドを加速するハードウェアロジックで ソフトウェア目標と比較して 80%以上ストレージアクセス遅延を削減します
  • プログラム可能なデータ経路 (ASAP2):柔軟なパケット処理とオーバーレイネットワークのオフロード (VXLAN,GENEVE) を可能にします.
  • マルチホストとGPUダイレクトRDMA:直接GPU間のGPU間のGPU対対の通信は,CPUの介入なしに,AIクラスターにとって極めて重要です.
  • テレメトリと混雑制御ハードウェアベースの流量モニタリング,ECNマーク,ダイナミックレート制限

エンジニアはMCX653106A-HDATデータシート標準およびOCP 3.0形式要素の両方のサポート,包括的なオペレーティングシステムカバー (MLNX_OFED,Windows,ESXiのLinuxディストリビューション),および広範なサーバー互換性.MCX653106A-HDATの仕様また,75Wの最大電力消費と0°Cから55°Cの動作温度を確認し,高密度展開に適しています.

4展開とスケーリングの推奨事項 (トポロジーを含む)

配備は段階的なアプローチに従います.典型的な2ラックパイロットトポロジーは以下のように示されています.

構成要素 構成
コンピューティング/ストレージノード デュアルソケット インテル/AMD 256GB+ RAM NVMeドライブ 16
ノードごとにNIC MCX653106A-HDAT(ダブルポート100GbE) 16
葉のスイッチ メラノックス SN3700 (32x 100GbE,DCBが有効) 2
脊髄 切り替え メラノックス SN3700 (100GbE アップリンク) 1 (解雇の場合は2までのスケール)

配備段階:

  1. ステップ1 検証:確認するMCX653106A-HDAT対応サーバ,スイッチファームウェア,OSカーネルのバージョン.MCX653106A-HDATデータシート.
  2. ステップ2 ドライバーの設置:MLNX_OFED ドライバー パッケージ (最低バージョン 5.8) をすべてのノードに展開する. RDMA と RoCE カーネル モジュールを有効にする.
  3. ステップ3 布の配置:リーフスイッチでPFC (RDMAの優先度3) とETSを有効にする.ジャンボフレームサポートのためにMTU 9000を設定する.
  4. ステップ4 ローCE設定:設定するMCX653106A-HDAT イーサネット アダプター カードRoCE v2 (ルーティング可能) または v1 (ルーティング可能でない) で GID モードを IPv4 アドレスで RoCE v2 に設定する.
  5. ステップ5 確認:帯域幅と遅延を検証するためにノード間 ib_write_bw と ib_send_lat テストを実行します.パーフクエリーそしてmlnx_perf について.

16ノードを超えたスケーリングのために, 128ノードまでサポートする冗長なスピンスイッチを備えたスピンリーフトポロジーへの移行MCX653106A-HDAT イーサネット アダプタカードソリューションRoCEは複数の経路で負荷分布のためにECMPを使用しているため,繊維の再構成なしで線形的にスケールされます.

5運用,監視,トラブルシューティング,最適化

RDMA/RoCE 環境の有効な運用には,専門的なツールが必要です.以下の実践が推奨されます.

  • 交通渋滞検出:スイッチテレメトリ (例えば,Mellanox SHARP) を使用してポートごとにPFC停止フレームをモニターする.上昇した停止率は,流れ制御チューニングを必要とするインカストまたはマイクロバーストを示す.
  • パフォーマンスベースライン:使用ミル×5cmdそしてエスツール -SRDMAカウンタを収集し 順序外の完了と再送信を追跡します
  • ECNとDCQCNのチューニングスイッチ上で明示的な混雑通知 (ECN) を有効にし,スイッチ上で動的混雑制御 (DCQCN) パラメータを設定します.MCX653106A-HDAT運転手 (例えば,dcqcn_r_ai=40,dcqcn_r_hai=10) について
  • ログ分析:レビュー/var/log/メッセージRDMA 接続の失敗 (例:mlx5_core: QP を作成できませんでした). GID インデックスがエンドポイント間のマッチを確認します.
  • ファイアウェア更新:NICのファームウェアを定期的に更新します.ミルクス・フム・マネージャー.MCX653106A-HDATの仕様xxのファームウェアベースラインを推奨します.36.1010以上で RoCE性能が最適である.
  • 容量計画推定する組織ではMCX653106A-HDAT価格そしてMCX653106A-HDAT 販売中RDMA トラフィックにおけるプロジェクト成長率とプラン・リーフスイッチのオーバーサブスクリプション比率 (通常は貯蔵布の場合は3:1)

一般的なトラブルシューティングシナリオ:ゼロパケット損失の1方向の高レイテンシーは,しばしばECNの設定が間違っているか,PFCの設定が不対称であることを示します.mlnx_qos信頼モードとDSCPの優先順位マッピングをすべてのネットワーク要素で確認する.

6概要 価値評価

についてNVIDIA メラノックス MCX653106A-HDATサーバーNICは,高性能RDMA/RoCEネットワークを展開するための生産準備の基礎を提供します.この技術ソリューションは,複数の次元で定量化可能な価値を提供します:

  • 性能:アダプターあたり最大200Gb/sのスループット,微秒未満の遅延で,以前はTCPオーバーヘッドで制限されていたスケールアウトストレージと分散コンピューティングワークロードを可能にします.
  • 効率性:ハードウェアオフロードは,ネットワーク関連CPU消費量を>50%から15%未満に削減し,アプリケーション処理のためのコアを解放する.
  • TCO:についてMCX653106A-HDAT イーサネット アダプタカードソリューション必要なノード数を減少させ,資本と運用費を削減します.MCX653106A-HDAT価格効率の向上だけで9~12ヶ月間の還元期間を考慮する.
  • 未来への準備PCIe 5.0 (バックアワード互換性) のサポートとDOCA経由のプログラミングは,データセンターの速度が200/400GbEに移行するにつれて投資保護を保証する.

このソリューションは,既存のEthernet操作にシームレスに統合され,RDMAの潜在能力を最大限に発揮できます.MCX653106A-HDATデータシート詳細な機械図,タイムスイム図,および高度な特徴説明.MCX653106A-HDAT価格そしてMCX653106A-HDAT 販売中NVIDIA Mellanoxの販売パートナーと連絡してください