NVIDIA お客様事例 (海外事例)

PDFを表示
NVIDIA お客様事例 (海外事例)

DDNとNVIDIAは協力しAIファクトリー向けにNVIDIA DGX SuperPOD™リファレンスアーキテクチャを構築

NVIDIAは、AI時代に向けたAIファクトリーを実現し、あらゆる規模のワークロードに対して飛躍的な性能を発揮するソリューションを提供することで、リアルタイムなビジネス判断を可能にし価値創出までの時間を大幅に短縮します。DDNは、こうした最新のAIファクトリーにおける認定ストレージおよびデータインテリジェンスレイヤーとして、GPUに常に十分なデータを供給し、予測可能なSLAを実現するとともに、テラバイトからエクサバイトまで柔軟かつ弾力的にスケールします。これにより、本番環境においては90~95%(最大99%)というGPU利用率を達成しており、多くの競合製品が提供する40~60%と比べて圧倒的な差別化を実現しています。

エンタープライズAIのためにゼロから設計されたNVIDIA DGX™ プラットフォームは、NVIDIAのソフトウェア、インフラ、そして専門知識を結集したものです。NVIDIA AI Enterprise、Blackwell、GB200 NVL72といった設計で事前検証が行われており、さらに8年にわたるNVIDIAとの協業実績により、DDNはPoCから本番環境への移行に伴う遅延を解消し、新しいGPUやネットワーク技術にも初日から対応可能な環境を提供します。

NVIDIAは、データセンター全体のパワーを単一のAIファクトリーとして統合することで、エンタープライズやAIクラウド事業者における高度な機械学習ワークフローやAIモデルの開発・展開の在り方を革新してきました。

課題

AIアプリケーションの爆発的な成長に伴い、データセンターには従来とはまったく異なる新しいアプローチが求められるようになりました。NVIDIAは、社内の開発者による高度で複雑な要求に応えるスーパーコンピューティングサービスを提供するだけでなく、新たなAI顧客向けにターンキー型スーパーコンピュータを展開するための設計指針を確立する必要がありました。そのためには、高い容量、信頼性、そして容易に統合可能なAI向けデータストレージおよび管理ソリューションが不可欠でした。

最初のスーパーコンピュータ共同プロジェクトであるSeleneから、NVIDIAは自動運転向けAIモデルの学習を可能にする十分な性能を備えつつ、あらゆるディープラーニング研究者のニーズに対応できる汎用性の高いシステムの構築を目指してきました。AIモデルの規模と複雑性が拡大し続ける中で、NVIDIAは後続のシステムに次々と新技術を取り入れ、すべてのAIワークロードに対応するクラス最高水準のインフラを実現するという目標を追求してきました。その過程で、こうした進化に追随できるストレージソリューションが不可欠となりました。

NVIDIAが求めたのは、数百台規模のシステムが並列稼働する大規模計算処理を、標準化されたスケーラブルなストレージ構成要素を用いて支えられる、信頼性の高いデータストレージ基盤とパートナープロバイダーでした。複雑性を抑えるため、これらのストレージ構成要素には、読み取り・書き込みの双方で優れた性能を発揮し、将来的な拡張においても再設計を必要とせずにスケールアウトできることが求められていました。

Quote

「必要なのはデータセンター規模のコンピューティングです。そうすることで、AIモデルやデータセットを多数のシステムで並列処理でき、アプリケーションの学習を数週間ではなく数時間で完了させることが可能になります。」

Tony Paikeday
NVIDIA プロダクトマーケティング担当シニアディレクター

ソリューション

2018年以降、DDNとNVIDIAはAIワークロードおよびアプリケーションに最適なインフラアーキテクチャを構築するため、広範な検証テストと共同開発プロジェクトを実施してきました。その結果、DDNのストレージはNVIDIAのSelene、Cambridge-1、EosといったAIスーパーコンピュータに採用され、エンタープライズAI顧客向けに容易にスケール可能な、信頼性と再現性の高いリファレンスアーキテクチャが確立されました。

従来、スーパーコンピュータの多くはカスタム設計の一点物でしたが、新世代のエンタープライズAI顧客には、そのような構築を行うための経験や専門知識、時間がありません。DDNのA³Iアプライアンスを活用して2020年にわずか3週間で構築されたSeleneの経験を基に、NVIDIAは後にNVIDIA DGX SuperPOD™として知られるAIファクトリーの設計指針を確立しました。DGX SuperPODは、対話型AI、レコメンダーシステム、コンピュータビジョン、自動運転など、ますます多様化するAIモデルの複雑性を最小限に抑えながら、成果創出までの時間を短縮します。DDNは、この世界クラスのターンキー型AIファクトリーにおける最初の認定ストレージソリューションとなりました。

Quote

「Seleneを開発した当初から、小規模な構成からフルサイズのスーパーコンピュータへと拡張できる設計を念頭に置いていました」と、NVIDIAのシニアデータセンターシステムエンジニアであるPrethvi Kashinkunti氏は語ります。「私たちは、この構築プロセスに伴う困難を自ら経験し、どこに課題があるのかを明らかにすることで、共同顧客が必要とするあらゆる規模で同じアーキテクチャを活用できるようにしたかったのです。誰かがすでにこれを実現し、正常に機能することを証明しているという安心感を提供し、期待に応えられることを示したかったのです。」

AIモデルの規模と複雑性が増大するにつれ、NVIDIAとDDNは前例のない性能と予測可能な稼働率を実現するため、さらなるシステムで協業を重ねてきました。その結果、利用率と生産性は大幅に向上し、NVIDIAの社内システムおよび顧客のAIプロジェクト双方におけるROIが飛躍的に高まりました。直近では、576台のNVIDIA DGX H100システムとNVIDIA Quantum-2 InfiniBandネットワークで構成されるEosシステムをNVIDIAが発表しており、そのストレージおよびデータレイヤーにはDDNのAI400X2アプライアンスが採用されています。

Quote

「世界最強クラスのAIシステムを設計する際には、多くの重要な要素があります。ストレージはしばしば見過ごされがちですが、その一つです。データモデルがますます大規模化し、計算量が増えるにつれて、より多くのデータが必要になります」と、NVIDIA ソリューションアーキテクチャおよびエンジニアリング担当VPのMarc Hamilton氏は説明します。「重要なのは、単にデータを移動させることではなく、同時にデータを移動させることなのです。」

DDNを活用することで、NVIDIAはDGXシステムに最適化されたデータプラットフォームを手に入れました。これは、高性能ネットワーク、十分なI/O能力、そして増大するデータ需要や顧客の要求に応じて優れたスケーラビリティを発揮する設計を備えています。

導入効果

「DDNの性能とスケーラビリティは、最も重要な指標である“解決までの総時間”を短縮するために不可欠です」と、NVIDIA AIシステム担当チーフアーキテクトのMichael Houston氏は述べています。

DDNは、共有クラウド、生成AI、ソブリンAIなどの用途で、現在世界中に展開されている多くのNVIDIA AIファクトリーに統合されていることを誇りに思っています。柔軟で性能最適化されたこのソリューションにより、自動運転、ゲノミクスおよびバイオサイエンス、金融サービス、ロボティクス、製造業など、数え切れないほどの業界において、より効果的な生成AIやLLMトレーニングを通じて、顧客はより迅速なROIを実現しています。

DDNが提供する主なメリット:

  • TCOを30〜40%削減
  • 電力および冷却コストを74%削減
  • ROI 2億5,700万ドル(GPU 1万基、3年間)

さらに、DDNのソリューションはNVIDIAのGPU技術の進化にも対応しています。GPUの性能が向上するにつれて、高い稼働率を維持することが求められますが、DDNは同一の電力およびラックスペース要件のまま、世代を重ねるごとにアプライアンス性能を50%向上させてきました。

Quote

「当社のエンジニアと肩を並べて大きな課題に取り組んでくれるパートナーがいることこそ、本当の価値です」とHouston氏は語ります。「私たちは、現在可能な限界を押し広げながら、将来の新たなフロンティアを探求しています。」

読み取りと書き込みのバランスに優れた性能により、DDNはデータロード、モデルロード、チェックポイントといったI/O集約型処理にかかる時間を最小化し、GPU利用率を最大化します。チェックポイントは、さまざまな理由でモデルを永続ストレージに保存する学習工程上の重要かつ反復的なステップであり、大きなボトルネックとなりがちです。DDNの効率的な書き込み性能により、これらのチェックポイント処理は他のストレージソリューションよりも大幅に高速化され、待ち時間を削減し、システム全体の生産性を向上させます。

Quote

「読み取りと書き込みの両方において適切な帯域幅を提供できるストレージ技術を持つことは、このレベルの効率性を維持するために不可欠です」とKashinkunti氏は説明します。「DDNの技術は、この種のアプリケーションに最適でした。」

一方で、DDNは高度な技術と学術研究における多様な要件への深い理解を組み合わせ、世界中の数百の大学に対して、キャンパス全体、部門単位、クラウド対応のストレージソリューションを提供してきました。

今後の展望

データセンター全体のパワーを単一のプラットフォームに集約することで、NVIDIAは企業における複雑な機械学習ワークフローやAIモデルの開発・展開の在り方を革新しています。NVIDIAが提供する先進的なAIファクトリーにDDNストレージを組み合わせることで、エンタープライズ顧客向けに世界クラスのAIソリューションを提供しています。

「DDNの利用を検討しているすべての方に言えるのは、私たちのような大規模環境を支えるノウハウを持ったエンジニアリングパートナーを得られるということです」とKashinkunti氏は述べています。「彼らは継続的に革新し、将来のAIアプリケーションの性能向上に向けた新しいソリューションを提供する力を持っています。」

NVIDIAは、アクセラレーテッドコンピューティングへのアクセスを、可能な限り簡単で高速、かつ柔軟なものにしています。自社データセンター、ホステッド型プライベート環境、あるいはパブリッククラウドでの展開を問わず、標準化されたリファレンスアーキテクチャに従うプロバイダーを利用することで、顧客は効率的で実績のあるソリューションを得られるという安心感を持つことができます。これらのAIファクトリーの中核コンポーネントとしてDDNを採用することで、顧客はより高い利用率、低いTCO、そして迅速な成果創出を期待できます。

Quote

「DDNの素晴らしい点は、高性能分野の新参者ではないことです。彼らはハイパフォーマンスコンピューティング向けストレージの事実上の代名詞です。そして、DGX SuperPODで我々と協業することで、高性能環境におけるAIストレージの事実上の標準となりました」とHamilton氏は付け加えています。

公開日時