Technical Information
生成AIと完全自動運転 ~世界モデルが切り拓く未来~
チューリング株式会社は、生成AIとカメラのみによる完全自動運転車の開発を手掛ける会社です。創業は2021年8月で、KDDIやNTTドコモ、ヤンマー、みずほキャピタルなどからの約50億円の資本参加のほか、政府からも支援を受け、現在は東京都・大崎駅近くのオフィスで50人ほどの研究開発体制を敷いています。
「We overtake Tesla(テスラを追い越す)」をミッションに掲げ、ソフトウェアとAIの開発に注力した新しい形の自動車メーカーを目指しています。
※この記事は、『Veriserve Mobility Initiative 2024』の講演内容を基にした内容です。
チューリング株式会社 取締役CTO
青木 俊介 氏 
チューリング設立の動機
私は日本の大学院でモバイルコンピューティングに関連する研究をしていましたが、2015年に米国のカーネギーメロン大学に移り、自動運転の研究開発を始めました。当時の日本には自動運転に本格的に取り組む大学や研究室はほとんどなく、米国で研究を行う中で、自身が作ったソフトウェアで車が動くことに喜びを感じていました。そんなある日、ルーマニア系の教官と昼食を共にしていた際に、こんな言葉を耳にしたのです。
「How can we conquer the market held by Japanese car automaker by autonomous driving?(日本の自動車メーカーが持っている市場をどう自動運転ソフトウェアで奪えるだろうか?)」
彼自身には何の悪意もなく、米国にいる一人の若いエンジニアに対する問いかけに過ぎなかったと思いますが、この言葉に私は大変なショックを受けました。
日本は伝統的に製造業・モノづくりに長けていて、それは今も変わらないと思っています。一方で、ITやソフトウェアがもたらす変化には非常に弱いというのも日本の現実です。歴史をひも解いても、PCの世界ではWindows OSの登場後は基本的には米国が主導権を握り、日本は単なる部品メーカーに成り下がってしまいました。携帯電話でも、以前は日本の「ガラケー」が世界中で売れていたにもかかわらず、iOSというソフトウェアが出た途端に勢力図はガラリと変わってしまいました。
この流れは、自動車業界にも押し寄せています。トヨタや日産、ホンダなど、日本の自動車メーカーの車が世界中で販売されている一方、ソフトウェアによる大変革も起きていて、その象徴がテスラです。
少し前の情報ですが、世界の主要自動車メーカー12社の時価総額を合計してもテスラ1社の時価総額に及ばず、テスラの一人勝ちの構図となっていました。30~50年後に世界一となる自動車メーカーはどこか、もしくは自分の資産をどこに預けるのかという問いに対し、多くの人がテスラを選択しているわけです。
日本の年間自動車出荷額は60兆円、自動車産業に従事する人口割合は8.5%といわれていますが、これがテスラやAI・ソフトウェア中心の自動車メーカーに奪われる未来を考えると、すごく恐ろしいと感じます。自動車は日本の基幹産業であり、その危機は日本経済自体を揺るがすものであると思っています。
ソフトウェアとITが自動車産業を変革していく未来に、日本がその主導権を握るための一翼を担いたいと考えたことが、私がチューリングを創業した原動力となっています。
完全自動運転を阻む要因
■ロングテールの事象
自動運転には20年ほど前から多くの資金と人材が投入されてきましたが、いまだに街中を走る完全自動運転車は現れていません。図表1は、縦軸が発生頻度、横軸が運転状況の難しさを示すグラフです。運転が簡単で、同じような状況が何度も繰り返されるような場合には学習データとして多くの情報が得られるため、自動運転は比較的容易になります。左側の写真にある高速道路や自動車専用道路などが、その代表例です。
図表1:頻度が低い極めて困難な状況に対応するには高度な判断力が必要となる
一方、右側の写真は運転操作が難しく、遭遇する頻度は少ない状況です。こうしたものをグラフの形状から「ロングテールの事象」と呼んでいて、これをどう突破するかが完全自動運転を実現するための最後の1ピースだと考えています。
■「世界に対する理解」の不足
図表2は、先に挙げた写真ともう1枚のよく似た写真を並べたものです。左側は工事中の道路で、その先に信号機があり、2人の誘導員がいます。この状況をルールで書き下ろすのは非常に難しいのですが、人間が運転する場合は比較的簡単にクリアできると思います。実際、われわれ人間はいろいろなものを見るだけで複雑な世界を理解することができるからです。
図表2:2つの画像の違いを人間は簡単に理解できるが、ルールをプログラミングすることは非常に難しい
2つの画像にはピクセルレベルでは1/10~1/15程度の差しかありませんが、人間であれば実は大きな違いがあることに簡単に気付くと思います。左側には手前の誘導員の後方に工事中の矢印があり、前方には信号機、そしてカラーコーンの先にもう一人の誘導員がいて、これらには密接な関係があると考えます。一方、右側の写真では帽子をかぶった人が手を挙げていますが、これは人を呼んでいる、もしくはタクシーを呼ぶ動作であると判断するでしょう。
人間には、この右手を挙げている人物と工事現場はおそらく無関係であろうと簡単に理解することができますが、この状況を全部エンジニアが予測してルールで書き下す、もしくはプログラミングすることは非常に困難で、完全自動運転が実現しない理由の1つと考えています。
交通誘導員が2人いて信号機があるという複雑な三者の関係に加え、誘導員はこちらを見ていないし、右手の誘導棒を横にしているから多分まだ停止していなければいけないだろうと、人間は理解できます。これが自動運転車に不可能な理由は、「世界に対する理解」という能力が不足しているからだと考えています。この仮説を基にわれわれが開発したのが、マルチモーダルに対応する生成AI「Heron」です。
Heronの概要
Heronは、LLM(大規模言語モデル)に「視覚」を与える学習フレームワークとして開発したマルチモーダルAIライブラリです。文章と画像の入力に対し、文脈を理解した自然な文章生成が可能で、世界で初めて最大約700億パラメータのモデル群と大規模な日本語の画像・テキストデータセットが用意されています。
既存の生成AIやLLMは大半が米国もしくは中国で開発されていて、日本語への対応が不十分でした。実は車の運転というのはその国の文化を理解している必要があり、自動運転車も例外ではないのです。日本の街を走る完全運転車を日本独自のLLMで完成させたい、という思いで開発を進めています。
■世界を理解するAI
図表3は、Heronに先ほどの工事現場の画像と、「道路の状況を説明し、どのように運転するべきか教えてください」という文章を与えた場合の出力結果です。
図表3:チューリングが開発した生成AIのHeronは、図表2の工事現場の状況をほぼ理解できた
■走行データに存在しないシナリオにも対応可能
一方、こちらは少し極端な例ですが、高速道路上で豚が逃げ出した様子を捉えた写真です(図表4)。ドライバーが生涯を通じても遭遇することは皆無に近い状況で、自動運転ソフトウェアを作る際にもこうしたシナリオを組み込むことはあり得ないと思います。この状況をHeronに尋ねると、「3頭の豚が高速道路に逃げ出している。豚を傷つけたり事故を起こしたりしないように~」といった状況説明と適切な指示を出力してくれます。
図表4:Heronは、現実には発生しないような状況についても適切な内容を出力した
■既存AIとの決定的な違い
従来の自動運転の研究では、図表6のように道路上の車や人、標識等をスキャンしている画像が示されることが多かったと思います。実はここでAIが使われているのは物体認識の部分だけで、意志や行動の決定には関わっていません。一方、Heronは認識から理解、行動決定までの全てをAIに任せるという試みです。
図表5:AIによる物体の個別識別から、AIによるコンテキスト理解・行動決定に移行している
■既存AIとの決定的な違い
Heronはソースコードも含めて無償で公開しています。また、自動運転に限らず好きな画像と文章を入れて実際に体験できるシステムも提供していますので、興味があればぜひ試用してみてください。
https://heron-demo.turing-motors.com/
LLMから完全自動運転への道筋
われわれが目指す完全自動運転の実現には、いくつかのステップが必要と考えています。1つ目が言語を理解するLLMで、世界の状況を言語で入力し、言語で出力することを可能にします。LLMの登場によってAIの世界は一変し、それ以前の翻訳AIなどの単機能サービスは一瞬にして過去のものとなりました。
これに続くマルチモーダルAIは、画像・音声・文章などの異なる形式の入力に対し、出力も異なる形式で返すことができます。すでに多数のモデルが発表されていて、Heronもその1つです。
そして現在多くの研究者が競って取り組んでいるのが、空間や物理世界の認識を可能にする「エンボディードAI」です。ロボットの動作や自動運転の行動決定などへの活用が期待されており、具体的なレベルとしては、例えば地上5mからガラス瓶を落とすと割れる、さらにそれをむやみにつかんだら指が切れてしまう、このくらいの物理法則が理解できれば完全自動運転への足がかりが見えてくると思います。
LLMの課題
完全自動運転車の実現に向けたLLMの開発では、さまざまな課題も見えてきています。
■学習に必要なコスト
先に述べた通り、生成AIやLLM、画像生成、動画生成などの技術は、ほとんど米国の研究機関や企業で開発されてきたものです。テクニカルペーパーや論文の形で公開されていますが、それらを読めばそのまま実装できるわけではありません。われわれがLLMの開発を進める中で痛感しているのは、GPUとデータセットの重要性に加え、必要となる莫大なコストです。
例えば、「Llama」での本格的な学習では172万GPU時間が必要で、AWSを使うと約10億円かかります。さらに若干の変更や少し違うモデルを作るだけでも、100万円単位の費用と長い時間が必要になります。
また、一口に生成AIを作るといっても、実際にはインフラとなるデータセンター側の技術も必要になるので、分散並列学習の研究開発も進めています。少し前に流行したHPC(High Performance Computing)の技術などもフル活用しないと、生成AIに必要なレベルのインフラは作れないと感じています。
■推論のスループットとレイテンシ
LLMを使った経験がある方はご存じかと思いますが、入力から出力までにかなりの時間を要します。GPT-4では画像1枚につき6~7秒必要で、このスループットをどう解決するかが自動運転のカギになります。基本的に自動運転車はそれ単体で安全を確保しなければならず、いちいちクラウドにつないで指示を受ける方法では運転中に起こる事象に対応できません。このため、完全自動運転車は全てのシステムを車載したモデルにする必要があるのですが、解決策としては大きく2つが考えられます。
・GPUの性能向上
7年前と比べるとGPUの性能は50倍程度に上がっていて、この先も同様のペースが続けば2030年頃には実用可能な水準に届くことが期待できます。ただ、ハードウェアの開発は困難さも伴うので、今後の技術動向には着目していきたいと考えています。
・Navigator/Driverモデル
この名称は悪路を走破するラリー車のオペレーションから来ているもので、ラリー競技では車の操作に2人の人間が関わっています。ドライバーの隣に乗るナビゲーターは、走行している先のコース状況や自車の位置、ペース配分といった情報を分析してドライバーに「言葉」で指示を伝えます。一方、ドライバーはそれを聞いて頭の中で考えながら、目の前の道や障害物などを「目」で見て反射的に対応します。これを完全自動運転のモデルに適応できるのではないかと考え、われわれの特許技術として出願しています。
具体的にはクラウドとエッジの考え方で、ナビゲーターに当たるのがクラウド側です。ここでは大規模なLLMや生成AIが大切なデシジョンを下します。一方のドライバーがエッジ側、つまり車載システムで、目の前の事象に対して安全を確保しながら行動しつつ、難しい局面ではクラウドに指示を仰ぐ、あるいは数秒に1回のペースでクラウドを使って振る舞いを変化させるといった形です。このようにクラウドとエッジを上手に使い分けることで、完全自動運転が実現できるのではないかと考えています。
完全自動運転の実現に向けたプロジェクト
■GENIAC
「GENIAC = Generative AI Accelerator Challenge」は、経産省やNEDO(New Energy and Industrial Technology Development Organization:国立研究開発法人新エネルギー・産業技術総合開発機構)を中心とした国産生成AI開発の支援プロジェクトです。われわれチューリングも採択事業者の1つに認定され、GPUの活用や自動運転車向けAI開発に必要な支援を受けています。ここでは経済的なサポートはもちろんですが、他の参画企業との情報交換や連携による知見の蓄積が非常に有益なものとなっています。
■Tokyo30
文字通り東京都内の公道をハンドル介入なしで30分間走行するという自動運転プロジェクトで、2025年までの達成を目指しています。都内には信号や交差点、狭い道、路駐の自動車、走行中の自転車、歩行者といった複雑な要素があふれていますが、これを突破できて初めて完全自動運転車の実用化が可能になると考えています。
ここではLLMだけでなく、実際の物理的な走行における人間の操作や行動の情報も非常に大事になります。そのため、自社で走らせる車両のほか、タクシーアプリを運用するS.RIDE社との協業で走行データの収集を図っています。
本プロジェクトでは他にも多くの企業や技術者の方から多大な協力を得ていて、日本の自動車産業の層の厚さを実感しています。このプロジェクトはもちろん、チューリングという会社自体も日本以外の国では成立しなかった、日本だからこそできたチャレンジではないかと思っています。
おわりに
われわれは自動運転システムとそのソフトウェアの登場が、現在の自動車産業に構造変化を起こすと考えています。その時、ソフトウェアはアメリカや中国が押さえて日本はハードだけ作る、そんな社会はやはり寂しく思います。
海外では、テスラやMobileye、HUAWEIなど、自動車とソフトウェアという非常に難しい領域にチャレンジする会社がたくさんあります。日本の自動車メーカーは大変強力ですが、ソフトウェアエンジニアの立場からは若干遠く感じられる存在でした。しかし、われわれがこの領域に飛び込まない限り、日本が今後も世界の自動車産業で重要な立場を守ることは困難だと思います。
日本でたくさんの自動車が作られているからこそ、それに値する高品質な自動運転システムを作りたい。われわれは、そんな思いで日々研究開発を進めています。もし、この考えに賛同してくださる方がいれば、ぜひご協力をいただければ幸いです。
この記事をシェアする