汎用人型ロボットの評価メタモデル

人型ロボットヒューマノイドロボットの評価

はじめに

汎用人型ロボットの評価を検討する場合、従来の「ソフトウェアをテストする」発想から少し視点を変える必要があります。汎用人型ロボットは人間に似た外見を持ち、人間と同じ空間で身体を動かすことにより、人間との物理的・心理的な関わりが生まれるためです。そこで本記事では、ベリサーブの研究開発部門が提案する、汎用人型ロボットに対する包括的な評価モデルをご紹介します。

汎用人型ロボットの評価の難しさ

読者の皆さんは「汎用人型ロボット」や「ヒューマノイド」という言葉を耳にしたことがあるでしょうか。汎用人型ロボットは人間に似た外形を持つロボットを指し、住宅や工場など既存のインフラを変更することなく、柔軟にタスクを遂行できるとして注目が集まっています。特に、大規模言語モデル（LLM）がロボットに搭載されるようになれば、自律的な行動が可能になり、状況の変化にも適応できるようになることが期待されています。実際、工場や倉庫向けに、テスラ社の『Optimus』など汎用人型ロボットの実証導入が始まっています。産業向けだけではなく、欧米や中国のロボットメーカーが家事代行ロボットを発表し市場への提供を始めています。

こうしたロボットが将来、家庭やサービス業にも導入されるようになると、人間やペットなど生物と物理的に接触しながら作業することになります。ここで重要になるのが次の2点です。

ぶつかったり倒れたりしても、人間や生物を傷つけないような安全な挙動ができる
人間が「このロボットなら家庭にいても安心である」「仕事を任せられる」「使い続けたい」と感じられる

前者は安全性や信頼性の話ですが、後者はロボットに対する人間の心理の観点です。人間と共生することを目指す人型ロボットでは、この両方を同時に評価する必要があります。しかし、これまでのロボットの評価では安全性やタスク遂行性能が主な対象であり、人間の主観評価は工学分野で扱われることが少なかったため、総合的にロボットサービスを評価することはできていませんでした。

汎用人型ロボットの評価メタモデル

ベリサーブの研究開発部門では、ロボットの評価を従来の工学的な観点と人間の主観について統合的に評価するため、評価すべき観点を六つのレイヤーで整理したメタモデルを提案しています（図表2）。

安全性と信頼性、タスク遂行性能、インタラクション品質の3層はロボットの設計に関する評価であり、人間の主観によって変わることのない部分です。印象および信頼は、人間がロボットと関わる際の感情や相互作用に関する評価です。人間がロボットに対して抱く感情や印象によって、そのロボットを利用するかしないかが決定付けられ人間の行動変容に関わってきます。これら三つに対して以下に補足説明します。

ロボットの設計：安全性や信頼性は人の目からは直接は見えないものの、ロボットの動作の安定性に影響し、その結果として人間の主観にも間接的に関わってくる。タスクを正しく遂行する性能や、人間から指示を受け取るためのインターフェース設計もこのレイヤーに含まれる
人間の主観：ロボットの外見や、応答速度・距離保持アルゴリズムが生み出す動作を人が知覚したとき、それらから受ける印象や喚起される感情に焦点を当てる
人間の行動変容：人間の知覚が「このロボットは信頼できるか」「使い続けたいか」を決定付け、実際に利用する・しないという行動に移す

各レイヤーの説明として以下の図表3を示します。

例えば、家庭で掃除や配膳を手伝う人型ロボットを想定し、具体的にどのような評価指標を設定するかを考えたとします。各レイヤーでの評価観点の例として、次のようなものが考えられます。

安全性
- 倒れにくいか、倒れても人に危害を加えないか
- バッテリー異常時に安全に停止するか
信頼性
- ロボットのフレームやアクチュエータが毎日8時間の連続使用に耐えられるか
タスク遂行性能
- 指定したコップを90%以上の成功率で運べるか
- 10分以内に部屋を一周清掃できるか
- さまざまな種類の食器を認識して、壊すことなく洗浄できるか
インタラクション品質
- 音声で「コップを持ってきて」と頼んだときの理解率、聞き返し方、動き出すタイミングが自然か
印象・信頼
- 家族が「子どもに近づいても怖くない」「多少のミスなら許せる」と感じるか
技術利用
- 1カ月後も毎日使われているか、危ないと感じて電源を切られていないか

上述の例はごく一部で、実際にはユースケースの洗い出しやリスクアセスメントに基づいて決めていくことになります。

その後、各レイヤーにひも付く具体的な評価指標を考え、テストや主観評価アンケートなどにより計測します。結果を0－5点などの間に収まるよう正規化すれば、レーダーチャートのような形（図表4）で表現することも可能です。

これらの評価観点を網羅することで、有能で一緒に暮らしたいと思える人型ロボットを実現できているかを総合的に評価します。

また、産業用ロボット、サービスロボットなどでも、各評価観点の重要性が異なるだけでこのモデルを適用できます。例えば、産業用ロボットではISO 10218など安全規格へ準拠した設計ができていることや、タスクの遂行性能が評価の大半を占めています。ロボットの用途に応じてメタモデル中の必要な評価観点とその深さについて考慮することで、適切な評価が可能に成り得ます。

ISO10218を補完する技術仕様としてISO/TS 15066では、人と同じ空間で動作する協働ロボットの安全性を確保するための国際的な技術仕様が定められています。この標準では、安全柵なしでの運用を可能にする具体的なリスクアセスメント手順、安全速度、接触時の力・圧力の最大許容限界（生物力学的限界）などが規定されています。

汎用人型ロボットの評価の展望

LLMを搭載したロボットが普及すると、ロボットの行動はより自律的かつ多様になり、従来のような、研究室などの不変な環境下における安全評価だけでは十分でなくなります。確率的に変化する挙動を前提として、状況の変化に応じてロボットが安全な行動を選べているかを評価しなければなりません。

ロボットを使い続けてもらうためには、性能だけでなく信頼・安心感といった心理的側面の計測が欠かせません。

工学的な規格と心理評価をつなぐ本評価モデルは、実利用データを反映しながら継続的に改善できる構造を持ちます。今後、家庭やサービス領域での汎用人型ロボットの社会実装に向けた基盤となるべく、研究開発を継続し発展させつつ成果を発信していきたいと考えています。

この記事を書いた人

執筆
上野彩子
中堅SIerにて組み込みシステムの検証、業務システムの要件定義～運用、自社プロダクト開発を経験。その後、大手第三者検証会社でソフトウェアテスト、アジャイル推進、組織運営に従事。大学院留学とスタートアップ立ち上げを経て、2025年より株式会社ベリサーブに入社。AI駆動開発の品質保証をはじめとするサービス開発や全社AI推進に携わる。博士（情報科学）