HPC/AIの可能性を最大化する高速・大容量ストレージ > メディア > データ集約型ワークロードでストレージが鍵となる理由とは?
ブログ
2021/03/23

データ集約型ワークロードでストレージが鍵となる理由とは?

メディア

従来のアーキテクチャー=パフォーマンスのボトルネック

数年前までは、データを大量に処理するワークロードと、それを効率的に実行するためのインフラは、一般の企業では目にすることさえありませんでした。しかし、組織が保持するデータ量が急増し、高度な分析やAIなど、すべてのデータを理解するために必要なツールがHPCワークロードと多くの共通点を持つようになったことで、この状況は急速に変化しています。

ハイパフォーマンス・コンピューティング(HPC)とは、ビジネス、エンジニアリング、科学研究における最も複雑で困難な問題を計算能力を駆使して解決することです。世界で最もパワフルなスーパーコンピューターを使用する、ハイエンドかつ広範な分野ですが、多くの場合、企業のIT関係者なら誰でも知っているようなシステムが大規模構成でありながらも多く含まれています。

これら新興のAI・分析アプリケーションの特徴は、1台のコンピューターですべてを簡単に処理するには大きすぎるほどの非常に大規模なデータセットを扱うことにあります。このような処理を可能にする程の巨大で高性能なコンピューターを作ることもできますが、より現実的な解決策は、複数のコンピューターをクラスターに接続し、それらのコンピューターで並列処理を行うことです。また、GPUを搭載した計算機システムの普及により、データ解析の並列化が進み、さらなる高速化が実現しています。

現在、最大規模のスーパーコンピューターでも、高速ネットワークで接続された数百から数千の計算ノードで構成されています。各ノードは基本的には企業のデータセンターにあるようなサーバーであり、多くのスーパーコンピューターでは、Intel XeonやNVIDIA Teslaなどのプロセッサを搭載したノードが使用されています。

これだけの処理能力があっても、データセットが非常に大きく、一度にメモリに収まらないケースがよく発生します。多くのアプリケーションでは、コンピュートノードにストレージサブシステムから継続的にデータを供給し、その結果を定期的にストレージに書き戻す必要が出てきます。

つまり、データ集約型のワークロードでは、従来のエンタープライズワークロードなどの他のアプリケーションと比較しても、要求されるパフォーマンスレベルを実現するためにストレージサブシステムがより重要な役割を果たしていることがわかります。

なぜ新しいワークロードには異なるストレージが必要なのか?

従来、企業のストレージは、ファイルサーバーや特殊なネットワーク接続ストレージ(NAS)アプライアンスなどの共有ネットワークストレージによって提供されてきました。顧客関係管理(CRM)や電子メールなど、よりミッションクリティカルなワークロードでは、一般的にストレージとしてデータベースに依存しており、そのデータベースはストレージエリアネットワーク(SAN)でバックアップされたサーバ群上で稼働しています。

非構造化データの場合は、データを簡単に検索する必要があるため、ファイルシステムの方が適しています。企業は既存のファイルサーバーやNASシステムを利用したいと思うかもしれませんが、これらは従来の企業のワークロードには十分ですが、大規模なデータセットの処理に必要な規模には対応できない場合があります。

NASは、その名の通り、ドライブとネットワーク接続を備えた箱で、ドライブのストレージ容量を共有することができます。この場合の欠点は、ドライブを管理し、ネットワークにファイルシステムを提示するNAS内部のコントローラーが、事実上、インフラ全体の単一障害点となってしまうことです。

また、NASに内蔵されているコントローラがボトルネックとなり、すべての読み書き要求を通過させなければならないため、NASではパフォーマンスとスケーラビリティだけではなく、エンクロージャーに取り付けられるドライブの数にも制限があります。企業向けNASプラットフォームの中には、複数ノードで構成されたクラスターを1つのシステムとして表示することで、これらの制限に対処しているものもありますが、それでもスケーラビリティには限界があります。

このため、データ量の多いワークロードでは、一般的に並列ファイルシステムが求められます。データを多数のストレージノードに分散し、各計算ノードが各ストレージノードと直接通信できるようにするのが理想的です。これにより、複数の読み書きを同時に行うことができます。ストレージノードの数が多ければ多いほど、ストレージサブシステム全体のスループット(1秒間に読み書きされるデータの量)が向上します。

もう一つの違いは、使用するドライブの組み合わせです。エンタープライズストレージでは、フラッシュメモリーのレイテンシーの低さから、SSD(ソリッドステートドライブ)と呼ばれるフラッシュドライブを搭載したストレージアレイが主流になっています。このことにより、データベースなどのアプリケーションの読み書きが高速化され、アプリケーションのパフォーマンスが向上します。

データ集約型のワークロードにもフラッシュの低遅延性が生かされていますが、対象となるデータセットのサイズが大きいため、オールフラッシュストレージを使用するにはコストがかかりすぎることが多く、一般的な配置としては、大容量ストレージのハードドライブと、バッファーとして機能する少量のフラッシュストレージを混在させ、データの読み取りを高速に提供し、データの書き込みは後からハードドライブに行います。

複雑さがコスト増に繋がる

このようなストレージの複雑性を上手に管理することは、多くの環境で困難を伴います。特に、読み取りと書き込みのアクセスパターンは、データ集約型ワークロードによって様々に異なるため、組織が実行するアプリケーション毎に最適なパフォーマンスを提供するために、インフラ側を調整する必要があります。

この点はアナリスト企業であるHyperion Research社が行った調査にも表れています。調査では、要求の厳しいワークロードに対応するストレージインフラを運用する上での最大の課題は、適切なスキルを持つストレージの専門家の採用とトレーニング、さらにはチューニングや最適化にかかる時間とコストであると指摘されています。

Hyperion Research社の調査対象となった企業の4分の3以上が、過去1年間にストレージの問題によって生産性が低下したエピソードを報告しており、8社に1社は過去1年間に10件以上のインシデントを報告しています。

このようなレベルの信頼性の低さは、コストにもつながります。回答者の報告によると、ストレージシステムの障害からの復旧に1日しかかからない場合でも、通常、10万ドルを超える収益の損失が発生しているとのことです。これは、管理者がストレージインフラで何が起こっているかを確認し、ダウンタイムにつながる前に、発生しつつある問題に対処できるような、効果的な監視・管理ツールの必要性を示しています。

DDNの大規模ストレージ

DDNは、データ集約型ワークロードを専門とするストレージベンダーとして、金融サービス、製造業、学術機関、エネルギー、ライフサイエンス、ヘルスケアなど、さまざまな業界のお客様向けに製品を展開してきました。

DDNEXAScalerは、DDN2018年から開発・保守を担当している、広く普及している並列ファイルシステム「Lustre」をベースにしたファイルシステムアプライアンスです。EXAScalerは、高いパフォーマンスとスケーラビリティを目指して設計されており、オールフラッシュモデルと、SSDとハードディスクを組み合わせたハイブリッドモデルがあります。

DDN A³Iソリューションは、AIやディープラーニングのワークロードに必要なストレージ性能を実現することを目的とした製品群です。シンプルでスケーラブルなビルディングブロックでエンタープライズ向けに設計されたA³Iは、パフォーマンスや容量の拡張を容易に行うことができます。さらに、DDNストレージとデータ管理を、十分に検証されたリファレンス・アーキテクチャーを通じて、Tensor Core GPUを中心に構築されたDGX A100システムなどのNVIDIA GPUベースのシステムと組み合わせることが可能です。

DDNストレージの導入を選択したお客様の1つであるRecursion Pharmaceuticals社は、米国ソルトレイクシティに拠点を置き、AIと機械学習プロセスを利用して創薬を加速する新興企業です。同社は、AIアプリケーションを高速化し、重要なワークロードのボトルネックを解消するために、最適化されたストレージインフラを必要としていました。

同社はDDNのエンジニアと共同で、2PBの容量を持つDDN ES400NVとDDN ES7990XのストレージアプライアンスにEXAScalerを使用し、さらにファイルシステムのフロントエンドとしてオールフラッシュレイヤーを展開して、検証環境(PoC)を構築しました。

その結果、AIワークロードの処理のための18台のコンピュートノードと136台のGPUアクセラレーターをシームレスにサポートする堅牢なストレージを構築することができ、フラッシュレイヤーによってファイルアクセス時間が40%短縮され、すべてのGPUの使用率が最大100%となりました。

DDNは、非常に要求の厳しいワークロードに対応するスケーラブルなデータ管理・ストレージプラットフォームを構築してきた経験から、機械学習や高度な分析などのデータ集約型ワークロードに対応する技術を企業のワークフローに統合し、競争に打ち勝つという課題に直面している多くの企業を支援しています。

ハイパフォーマンスのストレージについてご不明点がございましたら、是非DDNまでお問い合わせください。 

*この記事は、The registerに掲載の記事 "Why storage is key to data-intensive workloads" の抄訳版です。