大規模AI環境でストレージインフラがその成功を妨げないために
この記事は、DDN.comに掲載のブログ記事 "REMOVING RISK FROM AI AT SCALE" の抄訳版です。
大規模AI環境でストレージインフラがその成功を妨げないために
DDNのテストデータから見る提言とは
実世界のAIプラットフォームをサポートするためのより高速なデータインフラストラクチャへのニーズは、昨今著しく増加しています。自然言語処理(NLP)、動画の即時推論、画像解像度の向上、画像量の増加と画像ソースの多様化、さらに推論の効率化を図るAIフレームワークのアップデートなど、幅広いユースケースに対応するために、新たな、そしてより強力なGPUプラットフォームを必要としています。AIエコシステムに向けて一歩一歩進むごとに、ストレージインフラがAIの成功を妨げる制限要因となるリスクが加わります。データ量が数ペタバイトに移行するにつれ、さらに解決が非常に困難になるでしょう。
以前のブログ記事では、最新のGPUベースのコンピューティングシステムでDDN A³Iストレージアプライアンスをテストした初期テスト結果について述べました。その結果、DDN A³IストレージアプライアンスではAIプラットフォームへのデータスループットのすべての記録を更新したことが証明されています。つまりこのことは、わずか2台のDDN AI400Xアプライアンスで、単一のマウントポイントを介してGPUシステム上で実行されているアプリケーションに99GB/秒という驚異的なスループットを提供したことになります。これは、NFSのようなエンタープライズ・ファイル共有プロトコルの33倍以上のスループットです。このことは、DDN共有並列アーキテクチャがHPCやAIのワークロード、特にGPUを使用した大規模なワークロードに対応する実現性と高速性を実証したことに他なりません。深層学習(DL:ディープラーニング)にGPUを使用しているDDNのお客様からは、スループットの向上がアプリケーションのパフォーマンス向上に直結し、ランタイムが短縮されることで、AIインフラストラクチャをより有効に活用できるという嬉しい報告を受けています。
データプラットフォームのパフォーマンスは、AI ワークロードを実行するための多様な要求を反映して、多次元的に変化します。スループットは能力の一側面であり、一定時間内に移動できるデータ量を測定します。IOPSも重要な考慮事項の1つで、1秒あたりに処理されるデータ操作の数を測定します。これまでのデータプラットフォームでは、基盤となるメディアやアーキテクチャの種類に応じて、どちらか一方を最適化するだけの選択しかありませんでした。しかし、DDN AI400Xでは、フラッシュを使用してパフォーマンスを向上させ、大容量ディスクをコストパフォーマンスの高いソリューションの一部として使用するハイブリッド構成として導入する場合でも、両方を均等かつ同時に満たすことが可能です。DDNのアプライアンスは、どのようなボリュームでも、小さなデータと大きなデータが混在していても、同じようにパフォーマンスを発揮することが実証されています。
このことにより、GPU上の最新のHPCやAIワークロードに優れたパフォーマンスを提供することが可能となりました。そのほとんどは、多種多様なデータタイプへの動的かつ柔軟なデータアクセスを必要とするものです。初期テストの一環として、1つのマウントポイントで480万以上のIOPSを実現し、これはNFSのほぼ50倍のIOPSであることが実証されています。
NVMeドライブからネットワークを介してアプリケーションに至るまで、DDNのソリューションの各レイヤーを完全に統合、調整、最適化することで、NFS共有やマウントの慎重かつ複雑な管理を必要とせずに、自動的に前述のパフォーマンスを実現しています。当社の共有並列アーキテクチャにより、非常に大規模なGPUクラスタであっても、ほぼ無限の規模で大規模なデータの同時実行を処理することが可能です。今回の最新のテストでは、単一のクライアントに対して他の追随を許さない量のスループットと IOPS を提供できることを実証しており、より多くのクライアントがワークロードの一部として関与しているため、予測可能なスケーリングが可能であることが証明されています。
DDNのオールマイティなパフォーマンスは現在稼働中のNVIDIA最大のDGX SuperPODで十分に証明されています。NVIDIAは先日、DGX A100、NVIDIA Mellanoxネットワーキング、DDN A3Iストレージを使用した最大のNVIDIA DGX SuperPODであるSeleneを発表し、2020年最新のトップ500スーパーコンピュータリストで第5位にランクインしました。NVIDIAは、数百台のDGX A100ノードに大規模にデータを供給するために、複数のDDN AI400Xアプライアンスを導入しています。
GPUを使用してAIやHPCを大規模に展開中、またはそのようは計画はありませんか? 是非DDNまでお問い合わせください。