NVIDIA Mellanox MCX556A-ECAT 動作:RDMA/RoCE は超低遅延とサーバーのスループット突破を可能にします

April 23, 2026

最新の会社ニュース NVIDIA Mellanox MCX556A-ECAT 動作:RDMA/RoCE は超低遅延とサーバーのスループット突破を可能にします

分散型ストレージ,高性能コンピューティング (HPC) およびAIトレーニングクラスターでは,ネットワークのレイテンシーとCPUオーバーヘッドが長期間にわたってサーバーの全体的な効率を制限してきました.大規模なクラウドサービスプロバイダでの最近の展開は,NVIDIA メラノックス MCX556A-ECATRDMAとRoCE技術によってこれらの課題に対処し,スループットと遅延削減の両方で測定可能な利益をもたらします.

背景 と 課題

顧客は数千台の仮想マシンをサポートする 多ペタバイトの Ceph ストレージクラスタを操作しています標準TCP/IPを使用する25GbEインフラストラクチャは,高CPU利用率 (ストレージノードでは60%以上) とピークロード中の不一致の遅延に苦しんでいた.. バックアップ窓は8時間を超え,AIトレーニングの仕事はI/Oストップを経験しました. チームは,CPUの介入を減らす,遅延を低減する,インフラストラクチャの全面的な改修なしで検討した結果MCX556A-ECATデータシート比較するMCX556A-ECAT 仕様選択しましたMCX556A-ECAT中核のアップグレード部品として

解決策と展開

建築はMCX556A-ECAT イーサネット アダプター カードPCIe 3.0/4.0 x16 をサポートするデュアルポート100GbEアダプターMCX556A-ECAT ConnectX アダプター PCIe ネットワーク カード, RoCE v2 を既存の葉骨トポロジー全体で最小限のスイッチ変更で有効にした.主要展開ステップには:

  • 25GbE アダプタをMCX556A-ECAT40個のストレージノードと150個のコンピューティングノードで
  • ハードウェアのオフロードを有効にする:NVMe over Fabrics (NVMe-oF),GPUDirect RDMA,およびデータ完全性のためのT10-DIF.
  • 優先流量制御 (PFC) と強化トランスミッション選択 (ETS) の配置を損失のないRoCE輸送のために.
  • 確認MCX556A-ECATに対応する既存のMellanoxスペクトルスイッチとQSFP28光学との状態です

コンピュータワークロードのライブ移行を利用した ダウンタイムがゼロでした

結果 と 益

配備後の測定結果は,主要指標の間で劇的な改善を示した.以下の表は,前後の比較を要約しています.

メトリック 前 (25GbE TCP/IP) (MCX556A-ECATとRoCE) 改善
ストレージノード CPU 利用量 62% 18% ↓ 71%
平均レイテンシー (4Kランダム読み込み) 450 μs 42 μs ↓ 90.7%
クラスターの総流量 38 Gb/s 172 Gb/s ↑ 353%
バックアップ ウィンドウ 期間 8.5時間 1.8時間 ↓ 79%

数字を超えて,エンジニアチームは RDMAが緊張を大幅に軽減し,以前はAI訓練チェックポイントに悩まされていた"テイルレイテンシー"のピークを排除したと報告しました.MCX556A-ECAT イーサネット アダプタカードソリューションこのカードは,内蔵されたテレメトリと混雑通知によるトラブルシューティングも簡素化しました.MCX556A-ECAT価格CPUコア節約とより速いバッチ作業完了から 9ヶ月以内にROIを達成しました.MCX556A-ECAT 販売中複数のチャネルパートナーを通じて,このレベルのパフォーマンスを中級企業にも利用できるようにします.

概要と展望

この展開は,MCX556A-ECAT分散型データベース,HPCシミュレーション,またはNVMe-oFストレージを実行しているかどうか,NVIDIA メラノックス MCX556A-ECAT100GbEがデータセンターの新しい標準になると,このアダプターに構築されたソリューションは従来のTCP/IPスタックを上回るでしょう.詳細な計画のために役員を参照してくださいMCX556A-ECATデータシート解決方法の建築家と相談してMCX556A-ECATに対応する特定の環境の設定です