Turing株式会社様

AIによる完全自動運転システム開発をDDN EXAScalerが加速

PDFを表示

Turing株式会社(以下、チューリング)は、AIによる自動車の完全自動運転システムを開発している、2021年8月創業のスタートアップ企業だ。従来のルールベース方式の自動運転技術は、特定のエリアでしか自動運転できないなどの制限があった。それに対してチューリングでは、カメラからの映像をもとに1つのAIが認識から判断、操作まですべてを担う、E2E(End-to-End)方式の自動運転システムを開発。より大規模なAI学習が必要になるかわりに柔軟な判断ができるこの方式で完全自動運転の実現を目指している。そのために、チューリングでは自社専用のAI計算基盤「Gaggle Cluster」を構築。このGaggle Clusterでは、高速データストレージとして、DDNの「EXAScaler」を採用している。その狙いや導入効果などについて、チューリングのシニアインフラエンジニアの渡辺晃平氏にお話を伺った。

自社に特化した計算基盤Gaggle Clusterを構築

国内最先端の完全自動運転技術の開発を進めるチューリング。同社は2025年12月に、東京都内を30分間無介入で走る「Tokyo30」マイルストーンを達成。さらに2026年3月には、VLMによる映像・言語理解に運転操作の出力を加えたVLA(VisionLanguage-Action)と呼ばれるAIモデルを使った公道でのリアルタイム自動運転制御の実現も発表した。こうしたチューリングの自動運転システムの開発では、独自のAIモデルの開発が中心にある。そのために、独自に開発し、2024年から稼働しているAI専用計算基盤が、NVIDIA H100 GPUを96基備えた「Gaggle Cluster」だ。

Gaggle Clusterの構成要素
Gaggle Clusterの構成要素

専用の計算基盤が必要な背景には、AI学習のスケーリング則がある。LLMなどの学習では、データサイズやパラメータ数、計算量に応じてモデルの性能が上がることが分かっている。

この基盤をパブリッククラウドではなくオンプレミスで構築した理由としては、最新テクノロジーの採用がある。「クラウド事業者のビジネスモデルは、インフラを作ってそのコストを何年かかけて回収していくというもの。タイムリーに最新テクノロジーが利用できるとは限りません。早い段階で自分たちの計算資源を確保するという意味で、オンプレミスで進めました」と渡辺氏は語る。

チューリングはこのGaggle Clusterを2024年3月頃に検討開始。ちょうどそのタイミングで渡辺氏が入社し、Gaggle Clusterの計画と実行に携わった。

同年5月には導入製品を決定して発注し、10月から稼働開始するという短期間で構築された。

この短期導入の実現には、「GPUプライベートクラウド」を展開するNTTPCコミュニケーションズ株式会社(以下、NTTPC)とのコラボレーションが大きく寄与している。渡辺氏は「当時、社内でAIインフラを扱えるのは山口(チューリングCTO山口祐氏)と私の2人くらいしかおらず、NTTPC様の支援には大変助けられました」と振り返る。

また、チューリングは2026年2月にGMOインターネット株式会社とパートナーシップを締結し、「GMO GPUクラウド」の長期契約も開始した。「Gaggle Clusterをフル稼働させても開発状況によっては計算リソースが足りなくなります。開発スピードを落とさないために、あふれたワークロードはあらゆるクラウドサービスを利用して吸収させています」(渡辺氏)。

絶対的なスループットと信頼性を求めて「DDN EXAScaler」を導入

Gaggle Clusterでは、NVIDIA H100 GPUを8基搭載したノードが12ノードあり、GPUあたり400Gbps、ノードあたり3.2TbpsのInfiniBandインターコネクトで接続している。CPUノードとGPUノードの間や管理ノードなどはイーサネットで接続。

ストレージもイーサネットによるRoCEv2(RDMA over Converged Ethernet)で接続し、ノードあたり8GB/s以上、ストレージ全体で100GB/s超の高スループットを実現している。

このストレージにDDN EXAScaler ES400NVX2を採用した。「カメラをベースとした自動運転モデルの開発では学習データが画像や動画を利用するため、巨大になります。そのため、ストレージ周りには大きな割合で投資しています」と渡辺氏は語る。

ストレージに求めた要件は、第一にスループットだ。「1GPUあたり1GB/sを超えるスループットを目標としていました。動画からの自動運転の学習では、数百KBから数MBの一連の静止画に分割して、ストレージから連続的にひたすら読み出していくことになります。そのため、高いIOでのスループットが重要です」と渡辺氏は力説した。

スループット性能は、チェックポイントの書き込み時間を短くする意味でも重要だ。AI学習では、複数ノードを使って分散並列学習を長時間にわたって動かす。

その途中で1ノードでも落ちると計算全体が失敗してしまうため、定期的に途中の計算状態をチェックポイントとして保存する。この保存中は計算が一時停止するため、書き込み時間を短くすることで計算全体を短縮できる。

同時に重視したストレージ要件としては信頼性がある。AI学習はデータあってのもので、ストレージが止まったらすべての計算が止まってしまう。「DDN EXAScalerは、AI開発で長く運用されてきた実績があります。新しい製品はどんなにスペックが良くても、最初は不具合や障害が発生すると思います。

DDN EXAScalerの実績に基づく信頼性をとりました」と渡辺氏は強調した。

実績という意味では、「AIの学習では、スーパーコンピューターの技術が多く採用されています。そのためTOP500にランクインしている多くのスーパーコンピューターで採用されているLustreファイルシステムをベースとしたEXAScalerを採用するのがベストだと判断しました」という点も渡辺氏は挙げた。

Gaggle ClusterのDDNストレージ構成
Gaggle ClusterのDDNストレージ構成

2030年までの完全自動運転の実現に向けて開発を加速

こうして導入したDDN EXAScalerについて、渡辺氏は「期待どおりの結果が出ています。ストレージ性能に余裕があることにより、GPUをフル稼働させることができ、ソフトウェアを最適化する余地ができます」と満足を示す。

また導入にあたってはDDNのサポートも大きかったと渡辺氏は言う。「構成やパラメータなどについて支援していただきました。もともと世界的なスーパーコンピューターなどをデプロイしているエンジニアが、サポートや導入コンサルティングをしてくれるのは、DDNの採用メリットの1つだと思います」と渡辺氏は感謝を表した。

チューリングでは、2030年までに完全自動運転を実現することをマイルストーンとして掲げている。それに向けて今後、AIモデルの開発を強化していくために、Gaggle Clusterの次世代となる計算基盤を計画している。「2027年中を目途に、現在の10倍ぐらいの性能のものを稼働開始することを計画しています」と渡辺氏は言う。

この次世代基盤のストレージでは、学習の前後のデータ処理など学習以外の部分においては、クラウド連携やオブジェクトストレージなどほかの種類のストレージに分けていくことも考えている。「その中でもモデルの学習は絶対なくならないワークロードで、スループットが何よりも重要です」とストレージの性能の更なる向上、DDNへの期待を渡辺氏は語った。

チューリングが計画中の次世代計算基盤の構想
チューリングが計画中の次世代計算基盤の構想

Turing株式会社

完全自動運転の開発に取り組むスタートアップ。環境認識から経路計画、運転制御までを単一のAIで行うE2E(End-toEnd)自動運転AIと、人間社会の常識や背景、文脈の理解を獲得した大規模基盤モデルを同時に開発し、これらを統合することで、あらゆる条件下において車が人間に代わって運転操作を行う「完全自動運転」の実現を目指している。

Turing株式会社 シニアインフラエンジニア 渡辺 晃平 氏
Turing株式会社
シニアインフラエンジニア
渡辺晃平氏

DDNソリューション

  • 利用用途
    完全自動運転システム開発用AI計算基盤「Gaggle Cluster」向けストレージ
  • 導入システム

 


※本事例は2026年3月26日、Turing株式会社におけるインタビューに基づいて作成しました。

公開日時