推論インフラを阻む最大の壁──インテグレーション作業
エンタープライズやGPUクラウドプロバイダーは、ハードウェアの構築は素早く行えます。問題はその後──フレームワークごと・プラグインごとにソフトウェアスタックを繋ぎ合わせる作業が、エンジニアリング工数を大量に消費し、デプロイのたびに互換性リスクをはらんでいます。
推論ストレージの課題はさらに複雑です。モデルの更新・コンテキストウィンドウの拡大・KVキャッシュ需要の変動に応じて常に構成が変化し、インテグレーションレイヤーが増えるほど障害ポイント・レイテンシ・メンテナンス負荷が積み重なります。
7月リリースのNIXL 1.3から、この課題が解消されます。InfiniaプラグインがNVIDIAストレージの公式NIXLパッケージおよびDynamo推論インフラコンテナに標準搭載され、NIXLのインストールとDDNクライアントパッケージの追加だけで、コード変更なしにGPUストレージのKVキャッシュ高速化が有効になります。
セットアップ工程の変化
| 変更前 | 変更後 |
|---|---|
| ① NIXLをインストール | ① NIXLをインストール(またはDynamo推論インフラコンテナをプル) |
| ② GPUストレージプラグインを別途入手・互換性検証 | ② DDNクライアントパッケージをインストール |
| ③ 環境ごとに独立してデプロイ・管理 | ③ 完了 |
「DDN Infiniaは推論ストレージからコンテキストを直接GPUへ供給します。すべてのワットがトークン生成に集中し、AIファクトリーの経済性が劇的に向上します。NVIDIA DynamoとDDN Infiniaを組み合わせれば、Day 1からGPUを最大効率で稼働させることができます。」
── Sven Oehme、CTO、DDN
推論インフラにおいてGPUストレージが中核を担う3つの理由
ロングコンテキストへの対応 エージェント型AIは数百万トークンに達するコンテキストウィンドウを構築し、KVキャッシュ容量はGPUのVRAMをすぐに超えます。推論ストレージへの高速なオフロードと取得が、本番スループットの前提条件です。
耐障害性の確保 KVキャッシュをGPUストレージに永続化することで、ノード障害時も処理中のリクエストを再開でき、サービス継続性を維持できます。
プリフィル・デコードの分離処理 計算集約型のプリフィルとメモリ帯域集約型のデコードを別ノードで最適化することで、推論インフラ全体の効率が大幅に向上します。その間をつなぐ高速なKVキャッシュ転送を、DDN InfiniaのNVIDIAストレージ統合が担います。
DDN Infinia NIXLプラグインの主な技術特長
- ゼロコピー転送:事前登録済みメモリハンドルによりステージングバッファを排除し、GPUストレージ間の低レイテンシ転送を実現
- 並列バッチ実行:複数転送の同時処理で、推論インフラが求める大規模スループットを確保
- 非同期コルーチンAPI:推論ストレージへのデータ転送中もGPUの処理を継続し、無駄な待機を防止
- マルチテナント分離:クラスター・テナント単位の分離をネイティブサポート
- 柔軟なチューニング:設定ファイルのみで調整可能、アプリケーションコードの変更不要
本プラグインの組み込みを機にNVIDIAはNIXLフレームワークをC++20へアップグレードしており、NVIDIAストレージエコシステム全体の非同期処理性能が向上しています。実装はai-dynamo/nixl(PR #1569)で公開されています。
DDNは世界初──GPUストレージをNVIDIA推論インフラの一級構成要素へ
DDNは、NVIDIAの公式NIXLパッケージおよびDynamo推論インフラコンテナに組み込まれたNIXLプラグインを持つ、世界初のNVIDIAストレージベンダーです。
長らく推論ストレージはGPUコンピューティングの周縁に置かれ、データが通過するだけのシステムでした。しかし今日の推論インフラにおいて、GPUストレージのデータ移動レイヤーは一級構成要素として認められています。本統合はDDNのNVIDIA STXリファレンスアーキテクチャへの準拠・BlueField-4 DPUとの連携に続く取り組みであり、vLLM・SGLang・LMCacheユーザーも同じプラグインの恩恵を受けられます。NIXLのバージョンアップに伴う推論ストレージ機能の更新も、標準リリースの一部として自動的に適用されます。
公開日時