NVIDIA Mellanox MCX556A-ECAT 動作:RDMA/RoCE は超低遅延とサーバーのスループット突破を可能にします

April 23, 2026

分散型ストレージ,高性能コンピューティング (HPC) およびAIトレーニングクラスターでは,ネットワークのレイテンシーとCPUオーバーヘッドが長期間にわたってサーバーの全体的な効率を制限してきました.大規模なクラウドサービスプロバイダでの最近の展開は,NVIDIA メラノックス MCX556A-ECATRDMAとRoCE技術によってこれらの課題に対処し,スループットと遅延削減の両方で測定可能な利益をもたらします.

背景と課題

顧客は数千台の仮想マシンをサポートする多ペタバイトの Ceph ストレージクラスタを操作しています標準TCP/IPを使用する25GbEインフラストラクチャは,高CPU利用率 (ストレージノードでは60%以上) とピークロード中の不一致の遅延に苦しんでいた.. バックアップ窓は8時間を超え,AIトレーニングの仕事はI/Oストップを経験しました. チームは,CPUの介入を減らす,遅延を低減する,インフラストラクチャの全面的な改修なしで検討した結果MCX556A-ECATデータシート比較するMCX556A-ECAT 仕様選択しましたMCX556A-ECAT中核のアップグレード部品として

解決策と展開

建築はMCX556A-ECAT イーサネットアダプターカードPCIe 3.0/4.0 x16 をサポートするデュアルポート100GbEアダプターMCX556A-ECAT ConnectX アダプター PCIe ネットワークカード, RoCE v2 を既存の葉骨トポロジー全体で最小限のスイッチ変更で有効にした.主要展開ステップには:

25GbE アダプタをMCX556A-ECAT40個のストレージノードと150個のコンピューティングノードで
ハードウェアのオフロードを有効にする:NVMe over Fabrics (NVMe-oF),GPUDirect RDMA,およびデータ完全性のためのT10-DIF.
優先流量制御 (PFC) と強化トランスミッション選択 (ETS) の配置を損失のないRoCE輸送のために.
確認MCX556A-ECATに対応する既存のMellanoxスペクトルスイッチとQSFP28光学との状態です

コンピュータワークロードのライブ移行を利用したダウンタイムがゼロでした

結果と益

配備後の測定結果は,主要指標の間で劇的な改善を示した.以下の表は,前後の比較を要約しています.

メトリック	前 (25GbE TCP/IP)	(MCX556A-ECATとRoCE)	改善
ストレージノード CPU 利用量	62%	18%	↓ 71%
平均レイテンシー (4Kランダム読み込み)	450 μs	42 μs	↓ 90.7%
クラスターの総流量	38 Gb/s	172 Gb/s	↑ 353%
バックアップウィンドウ期間	8.5時間	1.8時間	↓ 79%

数字を超えて,エンジニアチームは RDMAが緊張を大幅に軽減し,以前はAI訓練チェックポイントに悩まされていた"テイルレイテンシー"のピークを排除したと報告しました.MCX556A-ECAT イーサネットアダプタカードソリューションこのカードは,内蔵されたテレメトリと混雑通知によるトラブルシューティングも簡素化しました.MCX556A-ECAT価格CPUコア節約とより速いバッチ作業完了から 9ヶ月以内にROIを達成しました.MCX556A-ECAT 販売中複数のチャネルパートナーを通じて,このレベルのパフォーマンスを中級企業にも利用できるようにします.

概要と展望

この展開は,MCX556A-ECAT分散型データベース,HPCシミュレーション,またはNVMe-oFストレージを実行しているかどうか,NVIDIA メラノックス MCX556A-ECAT100GbEがデータセンターの新しい標準になると,このアダプターに構築されたソリューションは従来のTCP/IPスタックを上回るでしょう.詳細な計画のために役員を参照してくださいMCX556A-ECATデータシート解決方法の建築家と相談してMCX556A-ECATに対応する特定の環境の設定です