HPC/AIの可能性を最大化する高速・大容量ストレージ > メディア > 東北大学 東北メディカル・メガバンク機構 ~ストレージの拡張による バイオバンク機能の増強
導入事例
2019/03/11

東北大学 東北メディカル・メガバンク機構 ~ストレージの拡張による バイオバンク機能の増強

メディア

多くの研究組織・研究者と計算資源を共有し、ゲノム医療研究を加速化する 

 

東北大学 東北メディカル・メガバンク機構 ToMMo

東北大学 東北メディカル・メガバンク機(ToMMo)は、2012年2 月に、未来型医療を築いて東日本大震災被災地の復興に取り組むために作られた。その中心の一翼を担うスーパーコンピュータシステムは 2014 年 7 月に本格運用を開始し、様々な成果をあげてきた。健康調査情報や全ゲノム配列情報を含む生体試料の解析情報を統合し、定められた登録・審査の手続きを経て全国の研究者が利用可能なデータシェアリングの基盤を構築するとともに遺伝子研究等の最先端医療を通じて人材育成に取り組んでいる。

導入当時東京以北の生命科学系で最大規模だったシステムも本格運用開始から 4 年が経過した。国際的な競争力の維持や、計算資源の確保に苦慮している研究組織や研究者にデータや計算・解析機能を提供し共有するために、国立研究開発法人日本医療研究開発機構 (AMED) のサポートも得て、2018 年にシステムの大規模な更新を行った。その責任者である、東北メディカル・メガバンク機構 副機構長、ゲノムプラットフォーム連携センター長 木下 賢吾 博士(理学)に経緯を伺った。

チャレンジ

  • 限られた予算の中で、コストを抑えながらシステムを更新する。
  • データ解析とデータ共有のために外部からのアクセスを可能にし、オールジャパンによる全国的な取り組みの基盤を構築する。
  • GPU 採用による理論演算性能の大幅な向上など、全体的な新テクノロジーの採用に合わせてストレージの性能を向上させる。
  • システム停止なしで大量のデータを移行する。

「復興が大きな目的として始まった我々の事業は、現在被災地の方々にその医療データを還元していく段階に入り、運営のハードルは一段階上がりました。しかし初期導入時には無かった AI、GPU、最新世代の CPU の導入など、新技術を採用し、解析の性能を高め、より大きなサンプル数を確保できたことで、データ解析の精度の大幅な向上を図れました。つまり、使えるデータが膨大に増えたことにより、理論上では存在していた手法が実際に有効に使用できるようになったのです」と木下博士。

被災地の住民から提供される検体をもとにした全ゲノム解析人数は、2013 年秋にまず 1000 人に到達したが、2019年1 月現在約 4000 人になっており、年度末には約 5000 人に達する。コホート調査全体の参加人数は 15 万人に及び、調査で得られた試料・情報を ToMMo だけが用いて研究するのではなく、多くの研究者に提供することで、より速くより高度で多様な研究を進めることができる。

「自分達だけで後生大事にデータを抱えていく時代は終わりました」と木下博士は述べる。

「医療のサステナビリティとは、一人ひとりの健康情報を 50 年間でも保持し続けられるようなシステムを構築する事です。今生まれた子が 50 年後に何らかの病気になった時、50 年間の健康状態の履歴をたどれるとすれば、これはすごいことです。その方の 3 歳の時のデータが瞬時に取り出せるようなシステムを作りたいのです。そのようなビジョンのもと、ストレージを合計 29PB へと大幅に拡張しました。この新ストレージシステムへの大量のデータ移行が今回一番大きなチャレンジの一つであったと言えます。

「もはや『自分達の計算機』ではなく『皆の計算機』の時代なのです。そのような仕組みを作るには新しい意識による取り組みが必要です」と木下博士は締めくくった。

スーパーコンピュー システム概要図 *2019年取材時点のデータとなります

 
ToMMosystem.jpg


DDN
導入効果

  • 限られた予算の中で、システムを更新し、Infiniband と 40/10G イーサネットの組み合わせで DDN ストレージを構成し、3 つのユニットで求められる異なる性能・機能を実現した。
  • コストを抑えながら、データバイオバンク機能を増強し日本のゲノム医療研究を支える基盤ストレージ を 29PB という大容量に拡張できた。
  • DDN ストレージは、GPU 解析サーバ NVIDIA DGX-1 に接続され、解析サーバ上で動作する統合ゲノム解析ソフト Parabricks ともに、高いレベルの性能を実現している。
  • 大規模な既存データ約 6PB を、約 2 日間という短時間で、研究活動などに支障を与えることなく、スムーズな移行を実現した。

ユーザーからの今後の期待

DDN には、新しいテクノロジーを採用した製品を積極的に提案し、研究の促進を下支えしてもらいたい。初期のシステムを導入した頃と比較して、当機構の重要度、データセンターとしての存在感が増しており社会的責任も高くなってきている。本システムも以前は解析を目的としていたが、現在は多くの研究者の基盤となるシステムへと変化した。

優れたテクノロジーを提供するのみならず、今後はより信頼性を重視した要求にも応えるパートナーとしてさらに貢献して欲しい。

 

東北メディカル・メガバンク機構

「自分達の計算機」から「皆の計算機」へと 意識を変え、医療のサステナビリティに挑む

木下 賢吾 博士

東北大学 情報科学研究科 教授
東北メディカル・メガバンク機構 副機構長
ゲノムプラットフォーム連携センター長
木下 賢吾 博士(理学)

導入システム

ES14KX 
SFA12KX 
SFA7700X
EXAScaler 
GRIDScaler
合計 29PB

SFAストレージについて

数多くの賞を獲得し、その優位性が実証さ れ て い る DDN の革 新 的 な Storage  Fusion Architecture (SFA) は、最適化された RAID エンジンと組み合わされた最先端のプロセッサ技術、バス、メモリー、そ して高度なデータ管理アルゴリズムを活用しています。SFA 製品ファミリーは、増加し続ける膨大なデータの管理を簡素化することを目的とした専用製品であり、 ユーザーの環境を従来よりもインテリジェントに、効率的に、なおかつ高いコスト効率で構築し、拡張していくことを可能 にします。

EXAScalerについて

EXAScaler は上記 SFA 製品ファミリーに最適化された Lustre ファイルアプライアンスシステムで、小さな計算タスクから、何万ものコンピューティング・コア を並列で走らせる巨大な演算要求に至るまで、顧客の要求に応える最高の並列アクセス性能を提供します。

GRIDScaler について

GRIDScaler は、NFS または CIFS による アクセスの容易さと、並列ファイルシステ ムクライアントによる高性能アクセスを実現する Spectrum Scale ソリューションを統合するアプライアンス製品です。要求の厳しい環境に必要とされるパフォーマンスと容量を提供します。

DataDirect Networks (DDN) について

DDN は、大学、研究機関、政府機関、企業が、データから多くの価値を生み出すことができるように、効率的で高速なストレージプラットフォーム、ソフトウェア、ソリューションを、20 年にわたり開発・提供してきました。AI、クラウドの時代を迎え、さらに高度化する情報活用ニーズに応え統合的なアプローチを一層強化し、データから実践的アイデアや新たな機会を生み出し、ビジネスやイノベーションを加速の支援をします。株式会社データダイレクト・ネットワークス・ジャパンは DDN の日本法人・100% 子会社です。


※ 本事例は 2019 年 1 月 31 日、東北大学 東北メディカル・メガバンク機構におけるインタ ビューに基づいて作成しました。

※ 2023年4月25日以降の最新の事例はこちらからご覧ください。