HPC/AIの可能性を最大化する高速・大容量ストレージ > メディア > DDN IMEとは：概要、システム構成、アーキテクチャ、データマイグレーション、性能

技術資料

2017/07/13

DDN IMEとは：概要、システム構成、アーキテクチャ、データマイグレーション、性能

この記事は、日本計算工学会「計算工学」（Vol.21 No.4 2016）に掲載頂いた「バーストバッファ型IOアクセラレーション製品 DDN IMEのご紹介」の内容となります。

1　はじめに

DataDirect Networks (DDN)社は大規模クラスタ環境向けにストレージアレイおよびLustreやGPFSなどの並列ファイルシステムをソリューションとして提供してきました。DDN IME (Infnite Memory Engine)は、大規模クラスタ環境で従来型のストレージアレイ・並列ファイルシステムでは対応不可能な問題を解決し、アプリケーションのIO性能を更に高速化するツールとしてDDN社によって設計、開発されました。

2　IME 概要

IMEはSSDを搭載した複数台のサーバをクラスタとして構成し、SSDで構成されたキャッシュ領域を計算クラスタに提供し、並列ファイルシステム上のデータへの高速キャッシュアクセスを実現する製品です。並列ファイルシステムと異なるアーキテクチャおよび記憶領域としてSSDを採用することによって、従来のストレージシステムが不得手としてきた、小さいIOサイズでのIO、ランダムアクセスなどの高速化も可能となります。

3　システム構成

DDN IMEは計算ノード上で動作するIMEクライアントと、計算クラスタと並列ファイルシステムの間に配置された複数のIMEサーバから構成されます(図1)。

IMEクライアントが動作する計算ノードについては特殊なハードウェアは必要ありません。OS は RHEL7系のOSで動作します。IMEサーバのハードウェアは現時点（※2016年）ではDDNが提供するアプライアンス製品である IME14K(図2)のみのサポートとなります。（※本記事公開時点ではIME240のみ）

IME14K は4Uフォームファクタに2基のIMEサーバを実装しています。各IMEサーバは24基のNVMe SSDを搭載し、Infiniband EDR 6ポートもしくはIntel OmniPath 4ポートを搭載します。IME14K 1基あたり(IMEサーバ x 2)の実効性能はInfiniband利用時で50GB/s、OmniPath利用時で40GB/s となります。

4　アーキテクチャ

DDN IME のアーキテクチャを図3に示します。

IMEはアプリケーションインタフェースとしてPOSIX および MPI-IO をサポートします。POSIX インタフェースは計算ノード上に IME プールをマウントすることによって実現されます。IME はネームスペースを管理するためのメタデータサーバ機能は有しておらずバックエンドの並列ファイルシステム(PFS)のメタデータ機能を利用します。そのため、計算ノード上でマウントした IME プールとバックエンド PFS のネームスペースは同一のものとなります。

IME クライアントはアプリケーションとIME サーバ間とのデータの送受信を管理します。また、データ保護機能としてイレージャーコーディングをクライアント側で設定することが可能です。IME サーバ上の IMEプールは従来の RAID 機能に相当するデータ保護機能を持ちません。IMEクライアント上では、送信するデータのデータ部およびパリティ部の数を指定し(例えば8D+2P など)、各シェードをそれぞれ別のIME サーバに送信します。IMEサーバ障害およびSSD単体の障害時にはパリティ再計算によるデータ復旧が行われます。

IME は分散ハッシュテーブルによってデータがどのIMEサーバのどのSSDに保持されているかを管理します。分散ハッシュテーブルは全IMEサーバで共有されており、全IMEサーバがデータの位置を把握し、障害復旧にも利用しています。

データはNVMe SSDに対して最適化されたIMEサーバ上のログストラクチャファイルシステムに格納されます。ログストラクチャファイルシステムは分散ハッシュテーブルと連携し、データの格納場所を決定します。

IMEサーバはIMEサーバ上にフラグメントされているデータをバックエンドPFSに最適なサイズのバッファにまとめバックエンドPFSに書き込みます。バックエンドPFSからIMEへの読み込み処理はコマンドの発行が必要です。

5　データマイグレーション

IMEはバックエンドPFSのキャッシュ領域として利用される製品です。バックエンドPFSとのデータのやり取り(マイグレーション)にはステージング方式と透過方式の二通りがあります。ステージング方式の場合、バックエンドPFSからIMEへのデータのロード、IMEからバックエンド PFSへのデータのフラッシュは明示的なコマンドの発行が必要となります。透過方式の場合、アプリケーションから読み込みを行ったデータがIME上に存在しない場合、IMEをバイパスし、バックエンドPFSから直接データを読み込みます。この際、IME 上へのデータのロードは行わない為、IME 上にデータをロードしたい場合は、ステージング方式と同様に明示的なコマンド発行が必要です。アプリケーションから IME に書き込まれたデータは透過方式では自動的にバックエンドPFSにフラッシュされます。

6　性能

図4にIOスループットベンチマークである IOR を用いたLustreとIMEの性能比較を示します。

ハードウェア構成はLustreが理論ピーク性能40GB/s、IMEが理論ピーク性能48GB/s の構成です。理論ピーク性能はネットワーク帯域から算出しており、使用しているディスクドライブおよびSSDの合算性能は理論ピーク性能以上の構成です。計測は32基のクライアントを利用し合計512並列、合計ファイルサイズ3.3TB で行いました。また、生成するファイルについては、FPP (File Per Process)とSSF (Single Shared File)の二通りを実施しました。FPPは並列ファイルシステムが得意とするプロセスごとに異なるファイルを生成する方式であり、SSFは単一ファイルに対して複数プロセスからアクセスするため、ロックのコンテンションが大量に発生し、並列ファイルシステムが不得手とする方式です。SSF の場合、Lustreが全く性能を発揮できないのに対し、IMEはFPPと同等の性能を得られています。IMEのアーキテクチャはSSFであっても、ロックを利用せずスケール可能な実装です。FPPの場合、大規模並列アプリケーションでは使用するファイルの数が膨大になり並列ファイルシステムのメタデータ性能がネックになるため、今後はSSFの利用が考えられますが、従来の並列ファイルシステムとは異なる実装でなければ性能を確保できない問題があり、IME はこれに対する一つの解答です。

7　おわりに

本稿では、最新のIOアクセラレーション製品 DDN IME の概要について紹介致しました。DDNは今後、実アプリケーションでの性能測定、ジョブスケジューラーとの連携、実システムでの運用などを通して、IMEの更なる性能、機能の充実を目指していきます。

出典：一般社団法人日本計算工学会　学会誌「計算工学」（Vol.21 No.4 2016）「バーストバッファ型IOアクセラレーション製品 DDN IMEのご紹介」

筆者：橋爪信明（はしづめのぶあき）

株式会社データダイレクト・ネットワークス・ジャパン T3S Director。サン・マイクロシステムズにて17年間ベンチマークエンジニア、プリセールスエンジニアとして主に HPC 案件に従事した後、2011年データダイレクト・ネットワークス・ジャパン入社。プリセールスエンジニア、プロフェッショナルサービス、カスタマーサポートを統括。

リンク：
・IME製品ページ
・IME関連情報

技術資料

2018/06/21

DDN IMEとは：概要、システム構成、アーキテクチャ、データマイグレーション、性能

1　はじめに

2　IME 概要

3　システム構成

4　アーキテクチャ

5　データマイグレーション

6　性能

7　おわりに

関連記事

ホワイトペーパー：ゲノム解析とシーケンシングの時間を1/100に短縮

マシンラーニング、AI、IoTに内在するファイルシステム関連の問題

AIインフラストラクチャ：ストレージが重要な理由

最近の投稿

Categories

Archive

Tags

DDN IMEとは：概要、システム構成、アーキテクチャ、データマイグレーション、性能

1 はじめに

2 IME 概要

3 システム構成

4 アーキテクチャ

5 データマイグレーション

6 性能

7 おわりに

関連記事

ホワイトペーパー：ゲノム解析とシーケンシングの時間を1/100に短縮

マシンラーニング、AI、IoTに内在するファイルシステム関連の問題

AIインフラストラクチャ：ストレージが重要な理由

最近の投稿

Categories

Archive

Tags

1　はじめに

2　IME 概要

3　システム構成

4　アーキテクチャ

5　データマイグレーション

6　性能

7　おわりに