ユーザーグループ10周年を迎え、国内で拡大するLustreコミュニティと最新事例 - JLUG 2020レポート
2020年12月4日、HPCや計算科学の領域で最も使われている並列分散ファイルシステムであるLustreファイルシステムのユーザー会である「Japan Lustre User Group(JLUG)2020」が、JLUG実行委員会の主催で開催された。
記念すべき第10回となった2020年の開催は、コロナ禍の影響もありオンラインでの開催となったが、過去最高の130人以上の国内の関係者が参加し、理研の富岳での最新のユーザ事例を含む5件のユーザー・セッションや、AI・データ解析を含む2件のテクニカル・セッション、3件のスポンサー・セッションが行われた。
JLUG実行委員会を運営する株式会社データダイレクト・ネットワークス・ジャパンの代表取締役ロベルト・トリンドル氏からは、「会の発足時の2010年からの10年間で、リサーチ・ビッグデータの領域を中心にLustreファイルシステムはユーザを大きく伸ばし、2020年には、国内で数百の組織で利用されるまでに成長しました。その結果、利用されるアプリケーションの領域も大きく広がり、これまでのI/O要求の高い特殊な研究用途だけでなく、高性能なPOSIX共有ファイルシステムとして、広く一般的なソリューションと認識されるまでに成長しました。」と挨拶があった。
当日の模様は、JLUG 2020の公式サイトで公開されているので、当日参加できなかった方は是非見て欲しい。ここでは、全10講演の中から、5件のユーザー・セッションの概要と、今回のJLUG講演を通して関連キーワードとして出てきたS3 Data Service (S3DS)についてのテクニカル・セッションの概要を併せて紹介する。
「データ活用社会創生プラットフォームの思想とデータ利活用の実装環境」
東京大学情報基盤センターの塙 敏博教授の講演では、来年3月に東大柏Ⅱキャンパスで稼働予定の知識集約社会におけるデータの収集・集約における高度な処理を実現する高速な計算機基盤「データ活用社会創成プラットフォーム」mdxについて、さらに現在設計進行中のシステムの概要について解説がされた。
このプラットフォームは、Society5.0の知識集約社会の到来を見据えて、用途に応じてオンデマンドで短時間に構築・拡張・融合でき、データ収集・集積・解析機能の提供を目的に設計されている。特徴的なのは、高性能なマルチテナント環境を提供する機能を持ち、データの利活用を推進し、異種データ・異種知識の融合活用を支援する事にある。そのため、多様なソフトウェア構成を許容し、高いデータセキュリティや、様々な隔離への要求を受けられる高度な設計上のチャレンジが行われる。
来年稼働予定のmdx高性能計算環境では、1PBのNVMe SSDと16PBのHDDのLustreで構成された2種類のストレージがマルチテナント用途に導入され、さらにデータ共有用オブジェクトストレージとして、S3DSを使ったS3互換のLustreファイルシステムも設置されるそうだ。
「高速・高密度・大量の磁気テープに対するメディア変換事例」
株式会社地球科学総合研究所 技術企画・IT 部 情報技術グループ 石井 利道 氏により、磁気テープの大量メディア変換に対するLustreファイルシステムの活用についての紹介があった。
「物理探査のデータ取得に莫大なコストがかかる事から、その取得されたデータは永久的に保存されます。さらに取得されるデータの量も膨大で、一度の探査で、磁気テープで数千巻にもなります。そのため、可用性喪失の対策は当然として、読み取り用のドライブやソフトウェア、サーバやオペレータが無くなる事による可読性喪失に対する対策も不可欠な分野となっています。このような背景から、旧式の磁気テープから、より大容量の最新の磁気テープへのメディア変換は、重要なサービスとして認識されているのです。」と説明があった。
このようなニーズに応えるために、高速なメディア変換サービスの設計に至っているが、最新の磁気テープドライブ装置は、500MB/sの速度でデータを転送する能力を持つ事から、これらのドライブ複数台からの同時書き込みに耐える、強力なファイルシステムとしてLustreを検討したとの事であった。
運用されているシステムは、複数のドライブを持つサーバで、大量の旧式磁気テープから平行して読み取り作業を行い、Lustreストレージに一時的にデータを保存し、圧縮やリスティングなどの処理後の後に、再び最新の、より大容量のテープ装置に書き込む。このように広帯域のI/O性能を持つLustreを採用した事で、以前よりも効率的にメディア変換が実施できるようになったそうだ。
「多様化するユーザ層に対しSupercomputing as a ServiceがHPCを身近に」
エクストリーム-D株式会社 代表取締役 CEO, HPC IaaS Architect 柴田直樹氏の講演では、Supercomputing as a Serviceを実現するAXXE-L プラットフォームにLustreファイルシステムをどの様に取り入れているのかについて紹介があった。
AXXE-Lは、高性能スパコンを利用・運用管理するサービスの全てを、Webブラウザから制御出来る、いわゆるマネージドOS環境として提供するSystem software as a Serviceと、HPCに利用できるManaged High Performance IaaSのサービスの2つをセットにして、サブスクリプションの形態で提供するプラットフォームとなっている。
デモンストレーションでは、Webブラウザーからログインしたユーザが、AXXE-L上で構築された複数のクラスタ計算機の利用状況や、各ノードに対してVDI環境下でアクセス出来る事が示された。また、理化学研究所で開発された富岳に対して、AXXE-Lから富岳の利用を可能にするための共同研究・開発中であると、今後の動向の紹介があった。
「解析計算機群との連携のためにS3DSを導入、高い運用効果を期待」
理化学研究所情報システム本部 研究開発部門データ管理システム開発ユニット 實本英之氏からは、理研が取り組んでいるオープンサイエンスのためのデータ基盤の概要紹介があった。
理研発の研究データを適切に管理・公開する機能を備えたレポジトリーとして、理研研究情報管理サービス(R2DMS)の設計と構築が現在進められている。構築には、いくつかのオープンソースのソフトウェアを組み合わせて設計されていて、データの保管・共有の機能をShibboleth連携機能や多数のストレージが利用可能なNextCloudを用いて構築する。そして、研究データとしての管理・公開には、国立情報学研究所が開発する研究データの管理ソフトGakuNinRDMを利用する事で実現するとの事である。その他、理研内にあるMetaDatabaseや文献レポジトリ、研究業績DBなどの周辺サービスとの連携も図ると説明があった。
実装環境として、データ科学基盤HOKUSAI-SS(SAILING SHIP)が使われ、現在稼働しているData Farmとしては、DDN SFA7990X 7セットを用いた30PBのLustreが構成されており、Lustreのクライアントへのサービスの他に、NFS、CIFS、S3DSの3つのサービスも提供し、R2DMSの利用要求に応える実装を進めていると紹介があった。
「富岳のストレージの性能の要は、LLIOとFEFSのレイヤードストレージ連携」
理化学研究所計算科学研究センター運用技術部門システム運転技術ユニット 上級技師 辻田祐一氏の講演では、スーパーコンピュータ富岳のストレージシステムの特徴と、巨大システムのトラブルシューティングに不可欠なロギングに関する紹介があった。
スーパーコンピュータ富岳は158,976台のノードで構成された巨大システムで、前身の京コンピュータとは異なり、構成するノードのタイプに、計算専用のノードと、I/Oを兼用するノードの2種類で構成されている特徴を持つ。この兼用ノードは、16ノード毎に1台が配置されていて、富岳全体では、3階層のストレージシステムの第1層として機能し、各1.6TBのSSDを備えたノードで構成されている。
そして、この第1階層のノードにより提供されるLightweight Layered I/O Accelerator (LLIO)は、第2層のLustreファイルシステムをベースに拡張されたFujitsu FEFSに対するキャッシュとして、富岳の全体のストレージシステムの性能に重要な役割を持つ。つまり規定の台数の計算ノードからのI/Oリクエストに応じて書かれたデータを受け取り、バックグランドで第2階層のストレージに逐次書き込む事で、計算ノードがストレスなくI/O処理を完遂する事ができるように設計されていると説明があった。
さらにキャッシュ機能の他に、計算ノードのローカルストレージとして、また、ジョブが共有すべきファイルの格納場所としても機能するため、利用ユーザにとって極めて重要な機構を備えているといえる。
第2階層のFujitsu FEFSは、Lustre ver.2.10をベースに拡張しており、RASのような高度な利用形態やQoS等の機能拡張は、京コンピュータでの運用知見をベースに踏襲されている。富岳で求められる大容量で、十分な冗長性を有し、高いI/O性能を備えたストレージとして設計されていると話す。
「DDNのEXAScaler5は、AIデータ解析のユーザビリティ向上に貢献する」
Whamcloud/DDN プリンシパルエンジニア 井原修一氏の講演では、最新のLustreファイルシステムの開発状況についてと、DDNが提供するEXAScalerにおける取組について紹介があった。
開発状況に関しては、「Lustreファイルシステムのロードマップは順調に進んでいて、リリース2.14では、幾つかの重要な機能追加がされます。1つはOST Poolのクォータが利用出来る用になりました。次に、これまで多くのユーザから必要性が指摘されていた、データの暗号化がサポートされた事です。」と説明する。
さらに、クライアントの改善が進み、シングルスレッドのI/O性能が、これまでLustreは弱いとされてきたが、今回のリリース2.14では、2倍以上の性能改善が示された。加えて最近利用が増えてきた、Linuxのページキャッシュを使わずに、ダイレクトI/Oを使った性能改善も大幅に図られており、元の性能の5倍から6倍以上の改善がされたと話す。
DDNがLustreファイルシステム上に構築したユーザビリティや管理性を向上させるために開発した、ストレージソフトウェア環境のソリューションであるEXAScaler5では、HPCの性能だけでなく、AIのワークロードにも合わせた最適化が図られて、ユーザに提供されると説明があった。
「LLIO/FEFS for the supercomputer Fugaku」
富士通株式会社プラットフォームソフトウェア事業本部・第3基盤ソフトウェア事業部 住元 真司 氏により、スーパーコンピュータ富岳に採用されたLLIO及びFEFSについての解説があった。
「スーパーコンピュータ富岳は、ユーザビリティ向上とアプリケーションのファイルI/O最適化を、第1層ストレージとして、NVMe SSDで構成された、16ノード毎に1.6TBの容量を、ノード内テンポラリ、共有テンポラリ、第2階層キャッシュの3種類のI/O領域として利用するLLIOを新規に開発しました。可能な限りローカルなI/Oアクセスをアプリケーションに提供する事を主眼として設計しています。」とし、次に「第2階層ファイルシステムでは、Lustre 2.10ベースで、耐故障性、保守性、負荷耐性、QoS、省メモリ・省CPUなどの機能拡張をしており、将来のアップデートを勘案して、可能な限りコミュニティコードベースの利用を基本にしています。」と説明する。
「LLIOの性能評価を、第1階層ストレージ、特にプロセス毎ファイルのスループット性能を計測することで、SSD性能を出し切れているのかを評価を実施したところ、ノード内テンポラリの評価では、ストレージ分散型のためハードウェア性能に比例した性能を達成していました。次に、ジョブ共有テンポラリの評価では、ジョブ内共有ファイルシステムとして京コンピュータよりも1桁高い性能を実現できています。最後に第2階層キャッシュの評価では、現状まだフルスケールでの性能向上の余地が見られ、共有テンポラリ性能を目標に最適化を実施しています。」と話す。
同様にFEFSの性能測定に関しては、第2階層ストレージの全系の性能を推定する事を目的に実施している。評価環境は、プロトタイプシステムとして構成された1BoB(Bunch of Blades)内の1GIOの性能を推定している。結果は、全系で利用した際には、全体の23%の台数のGIOから出されるI/Oで、第2階層のストレージの総実効性能の1.5TB/sに達するという結果だった。この結果を踏まえて、「この推定結果を裏返すと、全系で負荷がかかると、第2階層のストレージの設計上の実効性能の5倍以上の負荷がかかる事を意味しています。これに関しては、第2階層ストレージが安定稼働できるか含めて、今後、考える事が重要です。」と説明する。
JLUG 2020では、上記の講演の他に、スポンサー・セッションとして、インテル株式会社による”DAOSのLustre Integration”についての講演、エヌビディア合同会社による”DGX A100 SuperPOD & POD”についての講演や、株式会社データダイレクト・ネットワークス・ジャパンによる” DDN Update 2020”の講演があった。また、最後にはQ&Aセッションが特設され、講演者全員により、Lustreファイルシステムに関する要望が述べられるなど、講演した専門家の方々や、先進的なユーザにより、Lustreファイルシステムに関する有益なパネルディスカッションが活発に行われた。
JLUG 2020 公式サイト https://www.jlug.info/
HPCwire Japan 小西史一氏によるオリジナル記事はこちら