DDN、NVIDIA NIXLに組み込まれた世界初の推論ストレージベンダーに

7月より、NVIDIAのNIXL(NVIDIA Inference Transfer Library:推論転送ライブラリ)をデプロイするお客様は、NVIDIA公式のDynamo推論インフラコンテナに同梱された形で、DDN InfiniaのGPUストレージサポートをすぐに利用できるようになります。

推論インフラを阻む最大の壁──インテグレーション作業

エンタープライズやGPUクラウドプロバイダーは、ハードウェアの構築は素早く行えます。問題はその後──フレームワークごと・プラグインごとにソフトウェアスタックを繋ぎ合わせる作業が、エンジニアリング工数を大量に消費し、デプロイのたびに互換性リスクをはらんでいます。

推論ストレージの課題はさらに複雑です。モデルの更新・コンテキストウィンドウの拡大・KVキャッシュ需要の変動に応じて常に構成が変化し、インテグレーションレイヤーが増えるほど障害ポイント・レイテンシ・メンテナンス負荷が積み重なります。

7月リリースのNIXL 1.3から、この課題が解消されます。InfiniaプラグインがNVIDIAストレージの公式NIXLパッケージおよびDynamo推論インフラコンテナに標準搭載され、NIXLのインストールとDDNクライアントパッケージの追加だけで、コード変更なしにGPUストレージのKVキャッシュ高速化が有効になります。

セットアップ工程の変化

変更前 変更後
① NIXLをインストール ① NIXLをインストール(またはDynamo推論インフラコンテナをプル)
② GPUストレージプラグインを別途入手・互換性検証 ② DDNクライアントパッケージをインストール
③ 環境ごとに独立してデプロイ・管理 ③ 完了

「DDN Infiniaは推論ストレージからコンテキストを直接GPUへ供給します。すべてのワットがトークン生成に集中し、AIファクトリーの経済性が劇的に向上します。NVIDIA DynamoとDDN Infiniaを組み合わせれば、Day 1からGPUを最大効率で稼働させることができます。」
── Sven Oehme、CTO、DDN

推論インフラにおいてGPUストレージが中核を担う3つの理由

ロングコンテキストへの対応 エージェント型AIは数百万トークンに達するコンテキストウィンドウを構築し、KVキャッシュ容量はGPUのVRAMをすぐに超えます。推論ストレージへの高速なオフロードと取得が、本番スループットの前提条件です。

耐障害性の確保 KVキャッシュをGPUストレージに永続化することで、ノード障害時も処理中のリクエストを再開でき、サービス継続性を維持できます。

プリフィル・デコードの分離処理 計算集約型のプリフィルとメモリ帯域集約型のデコードを別ノードで最適化することで、推論インフラ全体の効率が大幅に向上します。その間をつなぐ高速なKVキャッシュ転送を、DDN InfiniaのNVIDIAストレージ統合が担います。

DDN Infinia NIXLプラグインの主な技術特長

  • ゼロコピー転送:事前登録済みメモリハンドルによりステージングバッファを排除し、GPUストレージ間の低レイテンシ転送を実現
  • 並列バッチ実行:複数転送の同時処理で、推論インフラが求める大規模スループットを確保
  • 非同期コルーチンAPI:推論ストレージへのデータ転送中もGPUの処理を継続し、無駄な待機を防止
  • マルチテナント分離:クラスター・テナント単位の分離をネイティブサポート
  • 柔軟なチューニング:設定ファイルのみで調整可能、アプリケーションコードの変更不要

本プラグインの組み込みを機にNVIDIAはNIXLフレームワークをC++20へアップグレードしており、NVIDIAストレージエコシステム全体の非同期処理性能が向上しています。実装はai-dynamo/nixl(PR #1569)で公開されています。

DDNは世界初──GPUストレージをNVIDIA推論インフラの一級構成要素へ

DDNは、NVIDIAの公式NIXLパッケージおよびDynamo推論インフラコンテナに組み込まれたNIXLプラグインを持つ、世界初のNVIDIAストレージベンダーです。

長らく推論ストレージはGPUコンピューティングの周縁に置かれ、データが通過するだけのシステムでした。しかし今日の推論インフラにおいて、GPUストレージのデータ移動レイヤーは一級構成要素として認められています。本統合はDDNのNVIDIA STXリファレンスアーキテクチャへの準拠・BlueField-4 DPUとの連携に続く取り組みであり、vLLM・SGLang・LMCacheユーザーも同じプラグインの恩恵を受けられます。NIXLのバージョンアップに伴う推論ストレージ機能の更新も、標準リリースの一部として自動的に適用されます。

公開日時