ビジネス

2026.05.29記事：HQW!編集部

そのAI、信用できますか？——生成AIの「評価」と品質保証の新常識

生成AI 品質保証ソフトウェアテスト QA AI評価

株式会社ベリサーブ執行役員研究開発管掌／AIQVE ONE株式会社取締役 CTO松木晋祐

株式会社ベリサーブにてソフトウェア開発部門、研究開発部門の創設をはじめ、さまざまなソフトウェアQAに関するSaaSのローンチを行う。また、AI4QA分野としてゲームデバッグのAIによる全自動化サービスなどの研究開発・提供、技術戦略推進部門の管掌などを担う。著書に、システムテスト自動化標準ガイド、Androidアプリテスト技法、生成AIアプリケーション評価入門など。活動に、東京電機大学非常勤講師、JSTQB技術委員、ISO/IEC JTC 1/SC 7 Expert/Co-Editor、テスト自動化研究会の創設など。

株式会社ベリサーブ広報部／テスティング・エバンジェリスト大西建児

大手電機メーカー、外資系通信機器機メーカーでソフトウェアテストや品質保証などに携わった経験を活かし、テスト自動化の推進、テストプロセスやソフトウェア品質改善に関するコンサルテーションなどを行う。その後、業界で培ったネットワークや知見をベースに広報・マーケティング部門にて活動中。また、コミュニティ活動や講演・執筆などにも精力的に取り組む。ISTQBではAdvanced Levelワーキンググループを中心にシラバス策定／執筆に携わっている（ISTQB joint Foundation Level & Agile Working Groupsメンバー）。NPO法人ソフトウェアテスト技術振興協会（ASTER）副理事長、JSTQB（テスト技術者資格認定）日本代表、技術委員会副委員長など。『ソフトウェアテスト教科書 JSTQB Foundation 第5版シラバス2023対応』共著、『ステップアップのためのソフトウエアテスト実践ガイド改訂版』著、『ビューティフルテスティング ―ソフトウェアテストの美しい実践』監訳など。

従来のソフトウェアであれば、期待動作を定義して、それに対する一致・不一致によって多くの場合でテスト結果の判定ができました。しかし、生成AIは同じ入力でも異なる結果を返すことがあります。
例えば、昨日までは問題なかったAIの回答が、モデル更新によって突然変わることもあります。こうした変化によって、従来の品質保証の枠組みそのものが揺らいでいると言っても過言ではありません。

では、生成AIの品質はどのように確保すべきなのでしょうか。
今回は、『生成AIアプリケーション評価入門』を執筆した株式会社ベリサーブ執行役員研究開発部長の松木晋祐に、AI時代における品質保証の在り方についてHQW!の編集長である大西建児が伺いました。

生成AIはなぜ「評価」が難しいのか

——今回の書籍は、どのような経緯で執筆に至ったのでしょうか？

もともとはテスト自動化に関する書籍の執筆依頼を出版社からいただいたのですが、当初はあまり乗り気ではありませんでした。というのも、テスト自動化については、既に良い本がたくさんありましたから。「今さら自分が書くことはないな」と思っていたのです。

一方で、生成AIアプリケーションの品質保証については、従来と同じ枠組みで扱えるのかという疑問がありました。ちょうど2023年から2024年頃、個人的な興味として生成AIの品質保証やテストについてブログを書いていたのです。続けるうちに、「これは体系化する価値がある」と感じるようになっていました。

——生成AI分野は進化が非常に速いですが、執筆時に意識していたことはありますか？

「書いた瞬間に古くなる」という感覚は、ずっとありました。生成AIの技術は本当に進化が速いので、細かな実装やツールの使い方だけを書いても、すぐ陳腐化してしまいます。だからこそ、できるだけ普遍的な概念や考え方を残そうと意識しました。

一方で、読者が実際に手を動かせないと意味がないので、DeepEval※1 のようなツールの使い方を通した具体的な説明を入れています。
※1　生成AIアプリケーションの出力品質を評価するためのオープンソースツール

もちろん、数年後に同じコードがそのまま動く保証はありません。ただ、考え方そのものは残ると思っています。

——従来のテストアプローチが通用しない理由はどこにありますか？

生成AIは出力が確率的に揺らぐため、同一入力に対しても結果が一意に定まるとは限りません。つまり、期待値そのものを固定できない構造を持っています。
期待値を固定できない時点で、従来のテスト実装は前提から見直す必要があるのです。

——なぜ本書では「テスト」ではなく「評価」という言葉を使っているのでしょうか？

実は、最初は「テスト」という言葉で書いていました。

ただ、執筆途中でNIST（米国国立標準技術研究所）※2 が、「生成AIではテストと評価を分けて考えるべき」と提唱し始めたのです。それを見て、「自分が書いていたのは評価だった」と気付きました。
※2　米国の技術標準やガイドラインを策定する研究機関

従来のテストはパス／フェイルの二値判定が前提ですが、生成AIの出力はそれでは扱えません。

例えば、

正確性
関連性
バイアス
ハルシネーション（AIが事実ではない情報を生成すること）

といった複数の観点に基づいて、出力を統計的に評価する必要があります。そのため、扱っているのはテストではなく評価という概念になります。

生成AIの品質はどのように評価するのか

——生成AIの評価項目はどのように設計していますか？

基本はメトリクスベース※3 で設計しています。Accuracy（正確性）やRecall（再現率）のように、“どれくらい正しく答えられているか”を数値化する指標に加えて、生成AI特有の観点を組み合わせます。
※3　品質や性能を数値で評価するための指標

評価観点については、既存の評価ツールが採用している指標を横断的に分析し、共通部分を抽出してモデル化しています。当時は、生成AI評価の標準モデルがまだありませんでした。一方で、DeepEvalのような評価ツールは既に存在していたのです。
そこで、「複数のツールが共通して見ている観点なら、一定の汎用性があるのでは」と考えました。つまり、“何をもって良い回答とするか”を整理したのです。

加えて、LLM自身を評価器として利用するLLM-as-a-Judge※4 といった手法も現実的な選択肢になっています。これは、AIの回答を別のAIに評価させるアプローチです。
評価は単一の手法ではなく、複数の観点を組み合わせて設計する必要があります。
※4　大規模言語モデル（LLM）を評価器として利用する手法

——ソフトウェアテストで「どこまで確認できたか」を示す“カバレッジ”という考え方は、生成AIでも通用するのでしょうか？

そのまま適用するのは難しいと思います。
従来のカバレッジは、テスト対象の構造が明確であることを前提に成立しています。例えば、コードカバレッジであれば、分岐や条件といった構造を網羅することで測定できます。

しかし、今日商用で提供されている基盤モデルは内部構造を直接観測できません。そもそも、全体構造を定義できないものに対してカバレッジを求めるのは無理があります。

そのため、生成AIではビヘイビア（振る舞い）やユースケースベースで評価する必要があります。カバレッジではなく、「どの基準を満たしているか」という観点で設計する方が現実的です。

実務で重要になるのは「継続的な品質保証」

——生成AIを評価する実務上では、どこがボトルネックになると考えますか？

構成管理です。
生成AIでは、モデル、アプリケーション、テストデータ（特にプロダクション環境において）の三つが常に変化します。このいずれかが変わると、評価結果は再現性を失います。

例えば、GPT-4前提で作ったアプリケーションが、気付かないうちに別バージョンのモデル挙動へ変化しているケースもあります。その状態で評価結果だけを見ても意味がありません。
必ず「どの構成で評価したのか」をセットで管理する必要があります。ここを押さえないと、品質保証自体が成立しなくなります。

——生成AIの評価において、セキュリティはどのように位置付けられますか？

セキュリティは品質の一部として扱うべきです。
生成AIでは、悪意ある入力によってAIの振る舞いを変えてしまう攻撃（プロンプトインジェクション）や、サプライチェーン攻撃といった新しいリスクが存在します。これらは機能とは別に評価すべき重要な観点です。

OWASP LLM Top10でも、そうしたリスクが整理されています。
特に面白いのは、2024年版から2025年版にかけて、脅威の順位が変わっている点です。AIの能力向上と共に、リスクそのものも変化しているのです。

その意味でも、セキュリティは固定的なものではなく、継続的に評価していく必要があると考えています。

AI時代にQAエンジニアはどう変わるのか

——ここまでのような変化を踏まえると、QAエンジニアの役割はどのように変わっていくと考えていますか？

QAエンジニアが従来のテスト手法に沿ったテストを実施するだけでは不十分です。これからのQAエンジニアは、メトリクスによる評価設計、継続的な評価運用、構成管理といった前提で品質保証を行う必要があります。

また、実運用を通して品質を評価し続けるという視点が重要です。
従来は「リリース前に品質を作り込む」という考え方が中心でしたが、生成AIアプリケーションでは、本番環境でも評価を続ける必要があるからです（図1）。

いわゆるフライホイール型で、

利用する
評価する
改善する

という品質を運用するためのサイクルを回し続けるイメージです。

生成AIアプリケーションの一度品質を確認して終わりではなく、使いながら改善を回し続ける考え方です。
品質は固定的なものではなく、状況に応じて維持・調整していく対象になります。

——本書を含め、生成AIアプリケーションの評価に関する知見を、読者にはどのように活用してほしいと考えていますか？

この領域に関しては、確立された正解はまだありません。したがって、本書も含めて完成された手法として捉えるのではなく、現時点の整理として参照していただくのがよいと思います。

重要なのは、そのまま適用することではなく、自分たちの評価対象が持つコンテキストに合わせて評価の考え方を設計し直すことです。
その意味で、本書は「答え」ではなく「指標」として使っていただきたいと考えています。

--------

編集後記（大西）：

生成AIの品質保証について話を聞きながら、あらためて感じたのは、「これまでの延長では考えられない領域に入っている」ということでした。

テスト分析と設計を行い、テスト実行により期待値との一致を確認する——これまで当たり前だったテストのアプローチが、生成AIアプリケーションではそのままでは成立しなくなっていることに改めて気付かされました。また、評価という考え方を取り入れ、品質を構成管理を軸に評価指標を用いて判断し継続的に運用する、というフライホイールの考え方が重要になることもよく理解できました。

特に印象的だったのは、松木さんのこの言葉です。
「評価を止めてしまったら、ディストピアへまっしぐら」

これは単なる比喩ではなく、生成AIアプリケーションを業務で扱う現場にとって、現実的な警鐘だと感じました。
この点については、日本ディープラーニング協会の井﨑氏との対談でも触れられていますので、興味がありましたら併せてご覧ください。
HQW! 新春対談（後編）：「評価を手放したらディストピア」――AIに使いこなされない唯一の方法

今回のインタビューで語られた内容は、これからの生成AIアプリケーションを含め、ソフトウェアの品質保証をどう捉えるか、その出発点となる考え方です。実際の現場にどう適用するかは、それぞれのコンテキストに委ねられます。

その意味で、『生成AIアプリケーション評価入門』をはじめとした書籍は、「そのまま適用するための指南書」というよりも、「基本的な考え方を理解し、身につけるためのガイド」として活用するのが適切でしょう。

株式会社ベリサーブ執行役員研究開発管掌／AIQVE ONE株式会社取締役 CTO松木晋祐

株式会社ベリサーブ広報部／テスティング・エバンジェリスト大西建児

この記事を書いた人

執筆
HQW!編集部
ソフトウェア品質保証・テスト分野の知見を持つ株式会社ベリサーブが運営するオウンドメディア「Hello, Quality World!」の編集チーム。技術書の執筆・監修経験者を含むベリサーブ広報部と、ITメディア編集経験者を含む外部編集スタッフで構成される。ベリサーブの技術者や各分野の専門家への取材・監修を基に、品質保証、ソフトウェアテスト、DX、AI、開発手法、IT人材育成など、IT業界に役立つ情報を企画・編集・発信。読者に正確で信頼できる情報を届けるため、公開前には内容の事実確認や専門部門による確認を実施し、分かりやすく実務に生かせるコンテンツづくりを心掛ける。株式会社ベリサーブは、ソフトウェア品質保証サービスを提供する企業として、40年以上にわたり1,200社以上の企業の品質向上を支援している。