AIに最適なストレージの構築の際に忘れてはいけないポイントとは?
この記事は、DDN.comに掲載のプレスリリース "Building the Best Storage for AI, What Everyone seems to Forget" の抄訳版です。
AIに最適なストレージの構築の際に忘れてはいけないポイントとは?
AIプログラムを成功させるためには、様々な障害が想定されるでしょう。しかしご安心ください。DDNにお任せいただければ、データの管理が障害にならないためのコツがお分かりいただけるでしょう。AIストレージには多くの要件がありますが、要件のトップ3はスケーラビリティ、パフォーマンス、経済性です。この3つをすべて満たすことは基本的なアーキテクチャにまで関係して来るため容易ではありません。3つのうち2つを満たすのは比較的実現しやすいと考えられますが、3つ全てを満たすだけでなく、導入と管理を容易にできるのがDDNの強みです。
DDNは、エンドツーエンドのデータ並列処理や、最速のプロトコルを採用するなどの優れたアーキテクチャの選択と、アーキテクチャのあらゆるコンポーネントにおけるスケーラビリティに対する深い理解により、いかなるシステム規模においても費用対効果を維持できる、最速かつ最もスケーラブルなソリューションを提供しています。さらに、1ユニットから数百システムまでのソリューションの導入と拡張の経験を有しています。
NFSとNFS(RDMA)の測定結果のソース:https://blog.mellanox.com/2018/06/double-your-network-file-system-performance-rdma-networking/
ストレージソフトウェア・プラットフォームを構築する際、それがどのようにデータを管理、移動、保護するかは非常に重要なポイントとなります。この点を間違えると、データベース用のストレージ、文書管理用のストレージ、メールサーバー用のストレージは構築できても、データ集約型である(データインテンシブな)AI用のストレージは構築できません。
AI の技術的な中心にあるのは、大規模で粒度の高い並列処理です。GPUは、高性能で高クロックのコアという旧来の世界を押しのけて、何千もの単純なコアに置き換えました。ディープラーニングの成功の本質は、この並列性の利用にあります。問題を何千、何百万もの断片に切り刻むことは、単一のすべてをまかなうプロセスに負荷をかけるよりもはるかに効率的です。ストレージについても同じことが言えます。地球上のほぼ全てのストレージシステムは、何らかの形式の NFS を使用していますが、この点が実はネックになるのです。これは、真の並列性を即座に排除し、アプリケーションのパフォーマンスの主な源を殺し、拡張を複雑にすることに繋がります。
そこである日、最新のGPUを8個搭載し、高性能なネットワーク技術を搭載したGPUクライアントプラットフォームを手に取り、次のように問いかけました。「最小限のストレージでどれだけのデータを単一のクライアントに取り込むことができるだろうか?」
DDN AI400Xアプライアンスは、わずか2台のラックユニットにオールNVMeかつ真の並列ファイルシステムを搭載しています。それら2台だけを使用して、ネットワーク経由でラボに導入したばかりのGPUシステムに素早く接続しました。DDN AI400Xでは、GPUクライアントへのファイルシステム接続は非常に簡単です。システムには8つのネットワーク接続があるにもかかわらず、DDNのインテリジェントクライアントソフトウェアはそのすべてをきめ細かな並列処理で使用しており、チューニングや設定をしなくてもシングルマウントポイントを利用することが可能です。
DDN AI400Xは数分以内に99GB/秒(ギガビットではなくギガバイト)のデータをGPUシステムに押し込んでいました。これは、ストレージとAIシステムの間で2週間分のビデオストリーミングを毎秒に凝縮しているようなものです。このことは、GPUシステムのCPU使用率を最小限に抑えながら達成されます。NFSのようなプロトコルでは、データ転送中にCPU使用率が最大100%になり、AIワークロードを実行するためのサイクルがなくなりますが、DDNの最適化されたデータパスでは、99GB/秒のデータを転送しながらも、最大24%を消費し、実際のAIワークロードのために十分なサイクルを残しています。 さらに、わずか4ラックユニットのストレージでこれらすべてを実現しています。
つまり、DDN AI400Xは地球上で最も高速なAI用ストレージだということです。しかし、それ以上に重要なのは、DDN AI400XはAIアプリケーションのパフォーマンスを簡単に、かつコスト効率よく得ることができるということです。その結果、データ、ストレージ、ネットワーク、コンピューティング、人材など、すべてのAIリソースから最大のパフォーマンスを得ることができます。
最高のパフォーマンスが謳われている他社の広告を見るたびに、実際のところそのシステムでどのくらいのストレージが必要だったのかを確認し、システムの効率的な管理が容易に完結できているのかの確認を怠らないことをお勧めします。さらには、御社のストレージ提供ベンダーが、世界トップレベルのデータ集約的な組織で本番システムを導入した経験を持っているかどうかも併せて確認してください。DDNは20年以上にわたって世界規模でストレージシステムの導入展開を実施してきた経験を活かし、AI用ストレージの最適な活用方法を全てのお客様に提供していきます。