ビジネスNEW

ベリサーブ座談会:生成AIの登場でQAの在り方はどう変わった?(前編)

株式会社ベリサーブ 執行役員 研究開発管掌 /AIQVE ONE株式会社 取締役 CTO松木晋祐

株式会社ベリサーブにてソフトウェア開発部門、研究開発部門の創設をはじめ、さまざまなソフトウェアQAに関するSaaSのローンチを行う。また、AI4QA分野としてゲームデバッグのAIによる全自動化サービスなどの研究開発・提供、技術戦略推進部門の管掌などを担う。著書に、システムテスト自動化標準ガイド、Androidアプリテスト技法、生成AIアプリケーション評価入門など。活動に、東京電機大学非常勤講師、JSTQB技術委員、ISO/IEC JTC 1/SC 7 Expert/Co-Editor、テスト自動化研究会の創設など。

株式会社ベリサーブソリューションデザイン本部 事業企画部長須原秀敏

車載関係を中心にソフトウェアテスト/品質業務を経験。現在はテスト会社における研究開発部門でモデルベースドテストやAIの品質保証技術の開発に取り組む。JSTQB技術委員、JTC1/SC7/WG26エキスパート。

株式会社ベリサーブ品質保証部 プロジェクト推進課 シニアコンサルタント山﨑崇

2001年大手セキュリティーベンダーに新卒入社。QAエンジニアとしてさまざまなプロジェクトに参加し、特にソフトウェアテストの活動全般を担う。2015年より株式会社ベリサーブに入社。社内外のプロジェクトを支援するチームを立上げ、プレイングマネジャーとして現場を飛び回っている。また、社外活動にも積極的に参加。ASTERテストプロセス改善 WG メンバー、テスト設計コンテストU-30 審査委員、JSTQB認定ソフトウェアテスト技術者 - Foundation Levelトレーニングコース講師など。

これまで期待と失望を繰り返してきたAIブームだったが、2010年代に到来した第3次ブームはその流れを変え、衰退することなく生成AIを主軸とする第4次ブームへとなだれ込んだ。こうした技術の進展は品質保証の世界にも根本的な問い直しを迫っている。この状況について株式会社ベリサーブ 執行役員 研究開発管掌の松木晋祐、ソリューションデザイン本部事業企画部長の須原秀敏、品質保証部プロジェクト推進課 課長の山﨑崇の三者が見解などを語り合った。

※本稿は、2026年3月20日に開催された「JaSST ’26 Tokyo テクノロジーセッション」の内容と、ベリサーブ社内で行った取材を基に構成しています。

第3次AIブームをどう見る?

山﨑:本日はどうぞよろしくお願いします。

松木&須原:よろしくお願いします!

山﨑:今回は「生成AIと品質保証のこれまでとこれから」をテーマにした座談会ということで、私が司会進行役になって、お二人にAIの過去、現在、未来の流れでいろいろと話を聞いていきたいと思います。

まずは私の方から背景を少し整理しておきましょう。AIには大きく見て、今日に至るまでに複数のブームがありました。第1次AIブームは推論・探索の時代で、「人工知能」という言葉が生まれた1950年代後半から1960年代のことです。続く第2次は、1980年代の知識の時代。専門家の知識をルールとして詰め込んだエキスパートシステムが脚光を浴びましたが、本格的な実用化には至りませんでした(図表1)。

図表1:AIブームの変遷

そして2010年代に入って迎えたのが第3次AIブーム、いわゆる機械学習・特徴表現学習の時代です。ビッグデータとディープラーニングの組み合わせによって、特に画像認識の分野で一気に精度が向上しました。興味深いのは、この第3次AIブームが衰退することなく、そのまま2020年代の第4次へとなだれ込んでいったことです。ChatGPTをはじめとする生成AIの登場がそれで、専門家でなくても自然言語でAIを使いこなせる時代が来ました。

このうねりは当然、品質保証の現場にも押し寄せてきています。第3次AIブームにおいてはDNN(ディープニューラルネットワーク)が実用段階に入り、各企業が独自の学習モデルを作ろうと四苦八苦されていました。

あ、何か言いたそうな顔をしていますね(笑)。では須原さん、この点についてどんな印象をお持ちですか?

須原:ありがとうございます。そうですね、第3次AIブームでは画像認識ができるようになったことがポイントだと言われますが、ソフトウェアテスト会社の立場からすると、業界構造が大きく変わったという実感はあまりなかったです。事業面では、自社のテスト自動化ツールの中に画像判定を組み込むためにDNNを使うといったことが起きていましたね。

山﨑:松木さんは当時のテスト・品質保証の技術的な手法についてどうお感じでしたか?

松木:メタモルフィックテスティングやニューロンカバレッジといった技術は、DNNやCNN(畳み込みニューラルネットワーク)の頃のAIに対する有効なテスト手法でした。でも、これらが今の生成AIにそのまま使えるかというと話は別ですよね。実は以前、須原さんに「LLM(大規模言語モデル)に対するメタモルフィックテスティングってどうやるの?」と聞いたことがあります。あれって答えは出ましたか?

執行役員 研究開発管掌の松木晋佑

須原:いや、今は出ていないですね。というか、メタモルフィックテスティングの考え方自体は自然言語に対しても適用できると思いますが、DNNの時代に使われていたものがそのまま活用できるかというと難しい。僕自身が使う自信はないですね。

松木:そうなのですよ、メタモルフィックテスティングやニューロンカバレッジは無理じゃないですか。「大規模」言語モデルはだてじゃないですよね。メタモルフィックテスティングは、XとX'の定義をして、その間に変わらない法則を見つけることが必要なのですが、現在はプロパティベーステスト(PBT)という考え方に昇華されていて、もしかすれば、PBTなら使えるかもと思っています。

須原:実際、ニューロンカバレッジやメタモルフィックテスティングの実践手法を考え、いくつかの案件で適用したことはありましたが、爆発的にスケールしていくという兆しはなかなか感じられませんでした。用途がかなり限定的だったというのが実態で、そこが第3次AIブームの限界だったのかなと思っています。

運用型QAが増えている

山﨑:生々しい意見が出たところで、ここからは現在のAIについて話題を移していきましょう。ChatGPTの衝撃は一ユーザーとしても大きかったわけですが、生成AIが登場したことで、テストや品質保証の考え方はどう変わってきましたか? 松木さん、どうぞ。

松木:一番厄介なのは、LLMが非決定論的であることと、文脈に引っ張られることですね。「こうすればこうなる」といった期待動作が一意に決められない点が大きな壁です。例えば、同じ入力でも「富士山は日本一高い山です」と、「富士山は日本で一番高い山です」のように出力が若干ブレたりします。この出力を採点して、平均スコアが一定以上であればOKとする、というテストの評価アプローチに変わらざるを得ないと思います。

山﨑:1回行った結果だけで判断できるものではなく、統計的なデータに基づいて精度を見るなどしなければならない状況ということですね。そういった中で多くの企業は頭を悩ませているのではないかと思うのですが、ビジネス現場をよく知る須原さん、いかがでしょうか。

品質保証部プロジェクト推進課 課長の山﨑崇(左)、ソリューションデザイン本部事業企画部長の須原秀敏(右)

須原:いろいろな側面での話があると思いますが、個人的にはAIをQA・テストするという文脈でいうと、本質的にはそんなに変わらないのではと思っています。ただ一方で、最近強く感じるのは、利用用途が事前に確定できず、予期しない使われ方によってユーザーの不満が生まれるケースが増えていること。自動運転で言えば、ODD(運行設計領域)のように、利用環境を限定する方法論を磨くことが、テスト会社としてビジネスになるのではないかと考えています。

松木:実際、LLMの使いどころで品質保証やテストが最もしんどいのはカスタマーサポートのチャットボットだと思います。あれ、一番キツいですよ。例えば、IRサイトに置かれたチャットボットが株主の方に誤った情報を伝えてしまったら、即座に訴訟リスクにつながりますから。リスクは非常に大きいにも関わらず保証が困難なのです。

QA・テストの評価がどう変わるかという点にも触れておくと、プリプロダクション時にLLMアプリケーションをメトリクス評価して、「大丈夫そうだからリリースしよう」となるのがこれまでのやり方でしたが、今後はこのプリプロで作った評価セットをプロダクションでもずっと回し続ける必要があります。プロダクション環境でリリース基準を常に満たし続けることを監視して、少しでもスコアが下がったら、すぐにデザインの方にフィードバックして、調整して、また出す。これを繰り返すことで、少しずつ品質が上がっていくのです。「フライホイール」とわれわれは呼んでいますが、LLMが組み込まれたアプリケーションの品質保証は、これがスタンダードになっていくのではと見ています。

山﨑:なるほど。旧来のQAは「リリース前に品質を作り切る」という発想が強かったですが、それが変わってきているということですね。

須原:当社のビジネスとしても、テストして、ゲートを越えたら終わりという支援の形から、事前に決めた基準に合致しているかを確認し続けるという運用型QAの仕事が増えてきています。以前からクラウドサービスでは自動テストやリグレッションテストの整備が行われていましたが、AIが組み込まれることによってさらに強化されていくイメージですね。

 

(後編に続く)

株式会社ベリサーブ 執行役員 研究開発管掌 /AIQVE ONE株式会社 取締役 CTO松木晋祐

株式会社ベリサーブにてソフトウェア開発部門、研究開発部門の創設をはじめ、さまざまなソフトウェアQAに関するSaaSのローンチを行う。また、AI4QA分野としてゲームデバッグのAIによる全自動化サービスなどの研究開発・提供、技術戦略推進部門の管掌などを担う。著書に、システムテスト自動化標準ガイド、Androidアプリテスト技法、生成AIアプリケーション評価入門など。活動に、東京電機大学非常勤講師、JSTQB技術委員、ISO/IEC JTC 1/SC 7 Expert/Co-Editor、テスト自動化研究会の創設など。

株式会社ベリサーブソリューションデザイン本部 事業企画部長須原秀敏

車載関係を中心にソフトウェアテスト/品質業務を経験。現在はテスト会社における研究開発部門でモデルベースドテストやAIの品質保証技術の開発に取り組む。JSTQB技術委員、JTC1/SC7/WG26エキスパート。

株式会社ベリサーブ品質保証部 プロジェクト推進課 シニアコンサルタント山﨑崇

2001年大手セキュリティーベンダーに新卒入社。QAエンジニアとしてさまざまなプロジェクトに参加し、特にソフトウェアテストの活動全般を担う。2015年より株式会社ベリサーブに入社。社内外のプロジェクトを支援するチームを立上げ、プレイングマネジャーとして現場を飛び回っている。また、社外活動にも積極的に参加。ASTERテストプロセス改善 WG メンバー、テスト設計コンテストU-30 審査委員、JSTQB認定ソフトウェアテスト技術者 - Foundation Levelトレーニングコース講師など。

SNSシェア

この記事は面白かったですか?

今後の改善の参考にさせていただきます!

Search Articles By The Cast出演者/執筆者から記事を探す

Search Articless By The Categoryカテゴリから記事を探す

Ranking

ランキング

もっと見る