国内外のHPCユーザーや研究者が集結、並列分散システムLustreの最新動向に迫る
11月2日、「Japan Lustre User Group(JLUG)2017」が、データダイレクト・ネットワークス・ジャパン(以下、DDNジャパン)の主催で都内にて開催された。本イベントは、並列分散システムであるLustreファイルシステムのユーザー会として、日本で開催される唯一のイベントだ。以下、主なセッションについて概要を紹介する。
エクサスケールの時代にHDF5やDAOSなどの新たな仕組みを
本イベントの最初のセッションに登壇したのは、Lustreファイルシステム(以下、Lustre)の産みの親であるPeter Braam氏である。
Lustreはオープンソースのシステムとして多くの開発者に支えられ、かつ多くの企業にビジネスをもたらしてきた。今でこそ注目度が高まっているが、当時は独立した使用を目的に開発されたものではなかったオブジェクトストレージのサーバの導入を1999年という早期から行ってきた。米国国立研究所の要求によってLustreにもたらされた焦点がLustreの成功を支えたとBraam氏は考えているが、「ユーザビリティに難があること、チューニングの難しさから一部のベンダーだけが高度に最適化されたアプライアンスを開発でき、おそらくLustreは誰もが扱えるシステムとしては成功できませんでした」と振り返る。
Peter Braam氏 |
またBraam氏は、2023年頃には、フラッシュがディスクの容量コストを下回り、これがアーキテクチャに変革の機会をもたらすというThe Registerの主張にも言及した。もう一つの機会が、「サーバ・セントリック」なアーキテクチャから2020年以降の「クライアント・セントリック」なアーキテクチャへ向かう流れだ。ここでは、あらゆるコンピューティングノードはZFSを用いたLustreサーバとなる可能性があり、 今後10年間で1PB/secのスペックを実現し、二次記憶装置ではエクサバイト級のスケールになる時代を示唆した。
加えて、最適なI/Oで複雑・大量のデータオブジェクトやメタデータを管理するため、ADIOS(Adaptable I/O System)、「HDF5」をLustreに可能な限り統合するべきであると示唆。さらにインテルにより開発中のストレージシステム「DAOS(Distributed Asynchronous Object Store)」、コンテナ技術などの進化が今後のHPCのストレージの進化には欠かせないと指摘する。
8キャンパスを持つ米名門大学のデータ基盤の活用事例
米国インディアナ大学 Stephen Simms氏 |
次のセッションでは、米国インディアナ大学におけるLustre活用の取り組みの事例として、同大学のStephen Simms氏が登壇した。8つのキャンパスを持つ同大学は、現在の「XSEDEプロジェクト」となる「TeraGridプロジェクト」に参画した大学の1つだ。このプロジェクトのために同大学では、大量のコンピューティングリソースを複数箇所に分散して所有。2006年には、デルとDDNの協力のもと、同大学ブルーミントン校とインディアナポリス校間に広がり、TeraGridにも用いられた10Gb/sのネットワークの約500TBのストレージシステムを構築している。同大学が「データキャパシタ」と呼ぶデータの集約基盤には、初めてLustreが採用された。
「選択のポイントはスケーラビリティの良さ。Lustreは驚異的に速く、さらに当時抱えていたクライアント数をはるかに超えるほどの拡張が可能になるとわかっていました」とSimms氏は話した。
2012年には第2のデータキャパシタをDDNのストレージプラットフォーム「SFA12K」で構築し、Lustre2.5を用いて5.3PBを実現。2016年にはデータキャパシタ WANを構築し、ここでは初めてZFSによるシステムを構築した。ここではLustre2.8が使用され、40Gb/sのイーサネットの環境を構築した。
2017から2018年には、研究者向けの合計12ペタバイトの2つのストレージシステムを計画中だ。ZFSを用いLustreには現行で最新版の2.10が使用される予定だという。
Lustre 2.10での強化ポイントとは
Lustreを機能面から最新情報を紹介したのは、Lustreの公式コミュニティ「OpenSFS」にてリリースに関してのリードを務めるインテルのPeter Jones氏だ。
インテル Peter Jones氏 |
コミュニティの調査によると、現在最も使用されているLustreのバージョンは2.5であり、それに2.7、2.8、2.9が続くなど、比較的最新のものへと順応していると、Jonesは明らかにしている。
Jones氏は、2017年7月に正式版がリリースされた2.10についての特徴を紹介した。Red Hat Enterprise Linux7.3(サーバ/クライアント)、SUSE Linux Enterprise Server SP2(クライアント)をサポートした2.10では、ファイル容量が大きくなるにつれて最適なストライピングを実現する「Progressive File Layouts」の仕組み、LustreのLNetに複数のネットワークインターフェースの使用可能にする「Multi-Rail LNet」が追加された。
またJones氏は、HPC環境のための管理ツール、Intel Manager for Lustre(IML)の現状の最新版IML4.0にも言及。これはブラウザベースで、Lustreファイルシステムの管理を可能にするもので、Lustre 2.10環境で使用することができる。2018年にはLustreの新バージョン、2.11のリリースが予定されているほか、このIMLの4.1の計画も進められている。
ゲノム解析のための超大容量・超高速ストレージ環境を構築
東北大学大学院・情報科学研究科 生命情報システム科学分野の木下賢吾教授は、ゲノム解析に付随する情報系コストの中で、特にストレージのコストが大きいことを紹介、それを軽減するための取り組みについて解説した。
東北大学大学院・情報科学研究科 生命情報システム科学分野 教授 木下賢吾氏 |
DNA情報を読み出すシーケンサ装置からの生データは1人あたり合計1TBあまりに達するという。より多くの人々を解析しようとすれば、その分だけ大きな規模のストレージが必要だ。しかも、シーケンサの生データから一人一人のゲノム情報を構築していく計算には数々のソフトウェアで処理する必要があり、コンピューティングにも相当なコストが発生する。
木下氏は現在、東北地方で長期にわたる健康調査およびバイオバンクを手掛ける東北大学 東北メディカル・メガバンク機構(ToMMo)のシステム環境にも携わっている。
「ToMMoのシステムは、容量のみならず高い入出力帯域が必要で、同一ファイルに多数アクセスが集中しがちです。多種類のソフトウェアが稼働するために、汎用性の高い構成である必要。そうした要件からLustreを採用しました。またゲノム情報にはセキュリティも重要なので、Lustreには認証やデータ暗号化などの機能も期待したい」と木下氏は説明する。
「ポスト京」に向けた次世代スパコン向けファイルシステム
富士通 次世代TC開発本部 ソフトウェア開発統括部 シニアアーキテクトの住元真司氏は、Lustreをベースとしたエクサスケールストレージについて講演。富士通は京コンピュータの開発に際し、ローカルとグローバル、そしてアーカイブの3階層からなるLustreベースのファイルシステム「FEFS」(Fujitsu Exabyte File System based on Lustre technology)を設計した経緯がある。
富士通 次世代TC開発本部 ソフトウェア開発統括部 シニアアーキテクト 住元真司氏 |
住元氏は、「ポスト京」となる次世代スパコンに向けたファイルシステムの研究の一環として、SSDの適用を検討してきたという。SSDを生かすには、それより遅いHDDのアクセスを減らすことと、SSDへの書き込みを削減することがポイントとなる。FEFSへの適用においては、ファイルのライフタイム、アクセスパターン、データ共有という3つの観点で検証したとのことだ。
「ファイルのライフタイムでいえば、永続的なファイルはSSDにキャッシュする形で扱う、一時的なファイルは削除されるまでSSD内で扱うのが効果的です。アクセスパターンはデータの共有形態などから7種類に分けて検討しました。ファイル共有では、ファイルを消去するタイミングなどに問題が残ります。やはりSSDの書き込み回数の制約が選定や設計における大きな要素です」と住元氏は説明する。
京の運用改善成果はLustreコミュニティにも貢献
理化学研究所(理研)と富士通が共同で開発したスーパーコンピュータ「京」。理研からは、計算科学研究機構 運用技術部門 システム運転技術チームに所属する開発研究員、辻田祐一氏が登壇した。
理化学研究所 計算科学研究機構 運用技術部門 システム運転技術チーム 開発研究員 辻田祐一氏 |
スーパーコンピュータ「京」(以下、「京」)のファイルシステムは、富士通がLustreをベースに開発したFEFS(Fujitsu Exabyte File System)を採用し、LFS(ローカルファイルシステム)とGFS(グローバルファイルシステム)で構成される2階層のファイルシステムを運用している。LFSとGFSはグローバルI/Oネットワークを介して接続しており、計算ジョブを実行する際にはユーザーのジョブ実行スクリプト内で指定された必要なプログラムやデータをGFSからLFSへ非同期ステージングによりコピー処理を行っている。また、ユーザーが京にデータを出し入れする際には、フロントエンドサーバを介してGFSへアクセスするというのが主なデータの流れだ。
非同期ステージングは、ジョブ実行効率の向上に大きな役割を発揮してきたが、巨大なデータセットをLFSからGFSへステージアウトする処理でフロントエンドサーバからGFSのレスポンスが低下してしまう場合があった。これに対してGFSの負荷をバランスするためのストライプカウント設定、FEFSのQoS処理採用という2つの対策を組み込んでいる。
「こういった改善は富士通とともに行ってきたもので、富士通は「京」の開発段階からの成果も含めLustreコミュニティにも貢献しています」と辻田氏は話す。
ARMサーバ対応やSSDキャッシュなど新機能も開発中
DDNジャパンからは、Lustre Engineering and I/O Benchmark Group、マネージャーの井原修一氏が登壇。マインツ大学と共同でLustreにおけるQoS活用の研究を行ったり、Lustreをデータアーカイブソリューションとして活用する方向性の検討など、さまざまな活動について触れた。
データダイレクト・ネットワークス・ジャパン Manager, Lustre Engineering and I/O Benchmark Group 井原修一 氏 |
最近のトピックスの1つは、ARMアーキテクチャのサーバ上でLustreを稼働させるという取り組みだ。「サーバのスレッド数に応じてある程度まで性能が上昇していくことも確認でき、現段階では性能を発揮できているという手応えです」と井原氏は話す。
開発中の機能としては、Lustreのクライアント側でローカルSSDをキャッシュとして活用することが可能になる「Lustre Persistent Client Cache」や、セキュリティの一環として、これまでLustreに存在しなかった監査機能がある。
「生命科学分野、AIを用いたアプリケーションでは、MDSのメタデータ処理性能のさらなる向上が求められています。より新しいハードウェアへのキャッチアップなども含め、当社はLustreコミュニティに今後も貢献し続けていきます」と井原氏は話す。
TSUBAME3.0におけるLustreの活用と課題
DDNとスーパーコンピュータの研究開発で協業しているのが、「TSUBAMEシリーズ」の開発・運用で知られる東京工業大学だ。学術国際情報センターの三浦信一特任助教が、8月に稼働を開始したばかりの「TSUBAME3.0」について解説した。
東京工業大学 学術国際情報センター 特任助教 三浦 信一氏 |
TSUBAMEシリーズはアクセラレータを積極的に用いた高密度な構成で、性能に加え設置スペースや消費電力の削減への取り組みが特徴だ。TSUBAME3.0では世界トップクラスの省エネ性を目指し、配電エネルギー損失も配慮した設計を取り入れた。その結果、性能電力比は10GFLOPS/W以上と世界トップを達成している。
このTSUABAME3.0のストレージに用いられているのが、Lustreファイルシステムを用いたDDNの「ES14KX」だ。今回、TSUBAMEとして初めてクラウドストレージとの接続や、逆にTSUBAME側ストレージへの遠隔地からアクセスもサポートすることが計画されている。
「現状では遠隔アクセスによる性能低下を補ったり、クラウドとLustreとの間のステージングの手間、遠隔地からセキュアにLustreへアクセスする方法などが課題となっています。また、初めてDockerコンテナ技術を取り入れましたが、まだLustreファイルシステムとの連携が不十分ですので、これからもチャレンジは続くことでしょう」と三浦氏は今後の課題を話している。
(マイナビニュースPR:提供 データダイレクト・ネットワークス・ジャパン)