Cases

株式会社ブレインパッド様 導入事例

生成AIの進化に伴う新たなリスクに対応し、品質はどのように評価すべきか。
ブレインパッドとベリサーブが挑んだ「Rtoaster GenAI」の
QA(Quality Assurance:品質保証)設計

株式会社ブレインパッド

「データ活用を通じて持続可能な未来をつくる」をPurposeに掲げ、データ/AI活用のリーディングカンパニーとして企業の経営課題解決を支援する株式会社ブレインパッド様(以下、ブレインパッド)。
同社が提供する対話型AI検索「Rtoaster GenAI」(アールトースター・ジェンエーアイ)は、曖昧な検索ニーズにも応える新しい検索体験を実現し、多くの企業で導入が進んでいます。

ベリサーブは、ブレインパッドの生成AI内包型プロダクトである「Rtoaster GenAI」の開発において、生成AI特有のリスクを踏まえた品質評価の設計と運用を支援しました。
本記事では、ブレインパッドが「Rtoaster GenAI」の品質保証に取り組んだ背景やベリサーブの支援内容および得られた成果について、ご紹介します。

業種

インターネット関連、ビッグデータ活用、デジタルマーケティング

導入サービス

テスト設計支援、QA4生成AIアプリケーションへの品質保証サービスGIHOZ

株式会社ブレインパッド

矢野 徹 様

矢野 徹 様

プロダクトユニット開発部 QAエンジニア リーダー

中村 智洋 様

中村 智洋 様

プロダクトユニット開発部 QAエンジニア 技術支援

株式会社ベリサーブ

磯西 涼平

磯西 涼平

ICT事業本部 クラウドサービス事業部

井上 和治

井上 和治

研究開発部 AI&技術戦略推進課

ブレインパッドとベリサーブの出会い

──お二人の担当業務について教えてください。

矢野 様(ブレインパッド)
プロダクトユニット開発部に所属し、QA(品質保証)エンジニアとして「Rtoaster GenAI」をはじめとするプロダクトの品質保証を担当しています。生成AIを組み込んだプロダクトにおいて、従来のQA手法だけでは対応が難しい領域について、評価の考え方やプロセスの整理、品質基準の検討などをリードしています。

また、開発チームと連携しながら、プロダクトとしての信頼性やユーザー体験を維持・向上させるための品質保証の在り方を検討しています。

中村 様(ブレインパッド)
プロダクトユニット開発部に所属し、QAエンジニアとしてプロダクト開発を支援しています。 品質評価の設計や運用に加え、開発・運用の現場で属人化しがちな業務をどのように整理・標準化していくかといった観点から、品質管理プロセスの改善に取り組んでいます。

生成AIプロダクトにおいては、評価結果の活用や業務フローへの落とし込みを意識し、継続的な改善サイクルが回る仕組みづくりを担当しています。

──ベリサーブを知ったきっかけを教えてください。

矢野 様(ブレインパッド)
ベリサーブさんの社名は一般的に知られていますが、私は前職でソフトウェアテストやユーザビリティを評価する会社にいたこともあり、サービス内容や評判についても耳に入っていました。そんな中、「Rtoaster GenAI」の開発を進めるに当たり、AIに関する品質保証について調査していると、AIプロダクト品質保証ガイドライン (『QA4AIガイドライン』)のことを知りました。

このガイドラインを制作したAIプロダクト品質保証コンソーシアムのメンバーにベリサーブさんがいらっしゃったこと、実プロジェクトへの適用の勘所を自社サイトで情報提供されていたことが、事前情報と折り重なって信頼感になり、仕事を依頼することにつながりました。

また、私の上長である山崎は前職で携帯アプリのテストをご一緒した経験があり、当時からソフトウェア工学の観点でテストを体系的に進める姿勢を高く評価していました。その話を聞いていたこともあり、今回のご相談をする前から社内ではベリサーブさんへの期待が高まっていました。

インタビュー風景1

生成AIプロダクトの品質保証に求められる新たな視点

──生成AIプロダクトの品質保証は、従来のものとどのように異なるのでしょうか。

磯西(ベリサーブ)
生成AIプロダクトの品質保証では、従来のソフトウェアの品質保証とは異なる視点が求められます。その背景にある考え方の一つが、リスクベースでAIの信頼性を評価・検証するアプローチです。

欧州を中心に、AIの利用目的に応じて「容認できないリスク」「高リスク」「低・最低限のリスク」の3段階で整理され、規制を設ける法案も提出されています。生成AIの品質をどう捉えるかは、国際的にも重要なテーマになっています。

こうした背景の下、策定されたのが『QA4AIガイドライン』です。品質保証の軸に沿った5項目のチェックリストが整理されています。
・Data Integrity(データがきちんとしているか)
・Model Robustness(精度が高く頑健性が確保されたモデルであるか)
・System Quality(システム全体として品質が確保できているか)
・Process Agility(開発プロセスは機動的か)
・Customer Expectation(顧客の期待は高いか)

AIプロダクト品質保証ガイドライン
https://www.qa4ai.jp/

矢野 様(ブレインパッド)
生成AIのリスクについては、OWASP※1のデータを基に弊社グループ会社である株式会社BrainPad AAA 代表取締役社長 CEOの辻がまとめています(図表1)。

インタビュー風景2

図表1 OWASP Top10(2025)にリストされているLLM/生成AIのリスク
出典元:https://genai.owasp.org/llm-top-10/

※1:OWASP(Open Web Application Security Project:オワスプ)とは、Webアプリケーションのセキュリティ向上を目指す国際的な非営利コミュニティーのこと。セキュリティリスクのランキング「OWASP Top 10」や、脆弱性診断ツール「OWASP ZAP」などの情報やツールを提供している。

品質保証に携わる他の企業ともミーティングしましたが、生成AIに関する会話がスムーズにいかない会社もありました。ベリサーブさんからのご提案は一般的な品質保証に関してはもちろんベースにありながら、生成AIに関する知見が先進的でした。また、研究開発部の責任者である松木さんをはじめとする皆さまが、業界へ向けて継続的に情報発信されている点を含め、ベリサーブの技術者には強い信頼を寄せています。打ち合わせの中でも、QAに関するさまざまな知見を伺うことができました。

磯西(ベリサーブ)
弊社の松木は「QAにも良い道具が必要」と言います。開発ツールは素晴らしいものがどんどん生まれていますが、QAに対するツールは何を使っていいのか、何を使うべきなのか答えられない現場に立ち会うことが多いです。その結果、QAが属人化してしまっている業務になっているところも多いでしょう。しかし、評価側も生成AIを使うことによって、多くの現場で定量化、一般化が可能になってきたと言えます。

中村 様(ブレインパッド)
今回のプロジェクトは、まさにその観点を業務に取り入れることが目的でした。

インタビュー風景3

「Rtoaster GenAI」が目指す検索体験と、生成AIを使いこなすために必要なこと

──「Rtoaster GenAI」が目指す検索体験を教えてください。

矢野 様(ブレインパッド)
「Rtoaster GenAI」は、「ユーザーが探しているものが曖昧でも見つかる」検索体験を目指しています。経験のある営業担当が対面で提案するように、ユーザーの意図をくみ取りながら、インサイトを掘り起こしていく点が特徴です(図表2)。

図表2 「Rtoaster GenAI」が目指す検索体験

図表2 「Rtoaster GenAI」が目指す検索体験

ECの運営側は、運用工数をかけずに感覚的な文言で検索するユーザーに最適な商品をレコメンドできるようになります。また、具体的なワードで検索した場合でも的確な回答を返すようチューニングしているため、感覚的な入力キーワードと行動ログを組み合わせることで、顧客インサイトの理解にもつながります。これまで経験豊富なマーケターに依存していた分析や戦略設計も、より取り組みやすくなると思います。

──「Rtoaster GenAI」はどのような課題を持っていたのでしょうか。

矢野 様(ブレインパッド)
「Rtoaster GenAI」だけの課題ではありませんが、ハルシネーション※2などの特性があり、アウトプットの期待値を安定させることが難しいと感じていました。また、QAそのものをどのような軸で評価すればよいのかを判断すること自体も難しいものでした。短期的な売り上げだけではなく、ブランドを維持する機能としての側面もありますから、生成AIの品質をどのように定義し、どう説明するかが大きなテーマとなっていました。

※2:生成AIは事実に基づかない誤った情報をもっともらしく生成することがあり、これをハルシネーション(幻覚)と呼ぶ。(引用:総務省令和6年度版 情報通信白書)

中村 様(ブレインパッド)
QAに限らずですが、マネジメント業務は標準化が難しく、属人化しやすい領域だと思います。ただ逆に言えば、生成AIとその評価システム、チューニングがうまく機能すれば標準化に近づける可能性があります。ユーザーの声や営業担当からのフィードバックを評価に反映できるようになれば、ユーザー体験の向上につながると考えています。

──ベリサーブの具体的な支援内容は

磯西(ベリサーブ)
主に、生成AIの出力への適切な評価、ハルシネーションの検知、法的リスクへの対応、脆弱性への対応などをご支援しています。
ハルシネーションや有害性への対策としては、特定商取引法、景品表示法、個人情報保護法といった多くのビジネスに共通する法令に加え、業界ごとに求められる薬機法※3などのルールを逸脱しないかを評価します。具体的にはリスクの高い項目を12の大分類に整理し、さらに大分類ごとに小分類として人種的なバイアス※4、性別的バイアス、政治的バイアスなどの2~4つの観点でチェックできる仕組みを設けました。

また、矢野様がお話されていた「ユーザーが探しているものが曖昧でも見つかる」という検索体験を実現するため、AIのチューニングも支援しました。

※3:2014年に旧薬事法が改正されて誕生した「医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律」のこと。医薬品、医療機器、医薬部外品、化粧品、再生医療など製品の品質、有効性、安全性を確保し、保健衛生の向上を図ることを目的にしている。

※4:人間の判断や意思決定において、自動化されたシステムや技術への過度の信頼や依存が生じる現象を指す。(引用:総務省、経済産業省「AI 事業者ガイドライン (第1.0版)」)

矢野 様(ブレインパッド)
「Rtoaster GenAI」では、ECサイトで検索結果が0件となった場合でも、検索結果ページ内にAI検索の結果を自動的に表示することで、離脱率を防ぎ、購買促進につなげています。店舗では感覚的に店員と会話しながら商品を選ぶことができますが、ECでは感覚的なキーワードでは商品がヒットしない場合や、検索結果が多過ぎて離脱してしまう場合もありますので、AIのチューニングが必要なのです。

磯西(ベリサーブ)
具体的には、ユーザーの入力に対して、検索結果がどれくらい関連しているかを数値化し、同様に検索結果までの中間生成物の数値化を行うことでAIの評価を実施しました。

井上(ベリサーブ)
また、生成AIアプリケーションの構造モデルに基づいて、具体的にどのような評価を行うべきかも整理しました。図表3は、評価観点を一般化(抽象化)したものです。

図表3 生成AIアプリケーションの評価 観点基盤モデル

図表3 生成AIアプリケーションの評価 観点基盤モデル

このような基盤モデルに基づいて、評価観点の取捨選択、優先度設定、ツールおよびメトリクス選定、さらにそれらを考慮した評価方法を決定しました。倫理、コンプライアンスといった規範的な観点に加え、コンテキストやセキュリティといった技術的・運用的な観点、さらにモデルや利用状況の変化に応じて評価基準を見直していく「適応型」の考え方を取り入れ、評価基準を数値化します。

──基盤モデルごとに評価を固定できるのも強み

井上(ベリサーブ)
生成AIモデルは、大量のデータからパターンを学習した「統計的な数学的構造」です。その特徴を捉えることが評価においてポイントになります。生成AIごとに基盤モデルのバージョンが異なれば、パラメータの数、使用したトレーニングデータなどが異なります。今回の評価システムでは「Rtoaster GenAI」の基盤モデルが変わっても、モデルごとに評価できる仕組みになっています。「Rtoaster GenAI」を被評価LLM、弊社のシステムを評価LLMだとすると、評価LLMを固定化すれば、被評価LLMのモデルが変更されたときにチューニングすべきポイントが素早く見つかります。LLM-as-a-Judge※5の利点です。

※5:LLM-as-a-Judge(エルエルエム-アズ-ア-ジャッジ)とは、大規模言語モデル(LLM)自身に「評価者」の役割を与え、他のAIモデルの出力や人間の生成したテキストの品質(有用性、正確性、関連性など)を自動的に判定・採点・比較する手法。属人化している評価業務を、LLMに代替させることで開発の効率化やスケーラビリティ(拡張性)を高め、フィードバックループを高速化できるメリットが期待できる。

インタビュー風景6

──今回の取り組みによって、どのような変化や効果がありましたか。

矢野 様(ブレインパッド)
生成AIを利用した製品全般に言えることですが、品質評価の難しさに対して、今回の取り組みでは品質をスコア化することで判断の基準を明確にできました。システムを導入してくださるお客様や、その先にいるユーザーが使いやすいかどうかを説明しやすくなった点は、大きな変化だと感じています。
生成AIによってできることが増えた反面、生成されたアウトプットをどのように評価すべきかという課題は、開発段階から実装後に至るまで常に付きまといますが、少なくとも客観的な指標で議論できる土台が整いました。

中村 様(ブレインパッド)
今回のベリサーブさんの評価システムは、お客様のECサイトの購買につなげる観点と企業ブランドイメージを守るという観点の両方で有用だと思っています。 また、客観的なスコアに基づく品質の標準化をベースに、日本語レポートがアウトプットされることによる業務負荷の軽減、プロンプトを使った分析データ出力の自動化などにより、品質管理業務のフローが循環するようになりました。加えて、CI/CDパイプライン※6に近いフローを構築できたことも、ビジネスの改善スピードがアップする点で大きいと感じています(図表4)。

※6:CI/CDパイプラインとは、ソフトウェア開発におけるコードの変更からビルド、テスト、デプロイ(展開)までの一連のプロセスを自動化する仕組みのこと。

図表4 生成AI品質基準(および検証環境)構築による効果

図表4 生成AI品質基準(および検証環境)構築による効果

今後の「Rtoaster GenAI」の発展、品質保証の位置付け

──今後の「Rtoaster GenAI」の発展に向けて、品質保証の観点でベリサーブへ期待していることがあればお聞かせください。

矢野 様(ブレインパッド)
生成AIをビジネスに取り入れる企業は増えていますが、導入時にリスクを十分に算出できないまま運用を始め、エンドユーザーからの指摘で初めて課題に気付くケースも、まだまだ多いと感じています。

今回の評価システムによって、「Rtoaster GenAI」を導入してくださるお客様に対し、生成AIの精度や状態を客観的な数値で説明できるようになった点は、大きなポイントです。生成AIを使っている限り、ハルシネーションや有害性のリスクがゼロになることはありませんが、それを前提としたサービスやサポート体制を構築できる認識をそろえられたことは、生成AIを使ったビジネスが次のステージに進んだ感覚があります。「Rtoaster GenAI」という一歩先を行くシステムを社会に提供できているという実感があります。

統計解析が得意な井上さんたちがいらしてくださったのも大変助かりました。さらに精度を高めて購買にまでつなげる方法を社内でも議論しているため、引き続きサポートしていただきたいです。

中村 様(ブレインパッド)
ECサイトの購買につなげる観点は重要ですし、お客様の企業ブランドイメージを傷つけない観点を持つことも非常に重要です。今回のように、客観的なスコアをベースに品質を評価し、その結果が日本語でレポーティングできるようになったことで、品質管理業務の負荷が軽減され、改善のサイクルを回しやすくなりました。
今後も、ユーザー体験の向上につながる形で、品質評価の取り組みを進めていきたいと考えています。

──AI駆動開発の時代になる

矢野 様(ブレインパッド)
最後に気になっている点を申しますと、AI駆動開発※7の最新の状況です。AIはシステム開発の上流工程へ入り込んで全工程を網羅するようになりつつあります。AIにコード自体を書かせることがもっと浸透すると、ビジネスやサービスの在り方自体が変わっていくと感じています。弊社もその動きをしていくことになると思います。ベリサーブさんも勉強会を開催していましたよね。

※7:AI駆動開発(AI-Driven Development: AIDD)とは、要件定義から設計、コーディング、テスト、運用までのソフトウェア開発プロセス全体にAIを深く組み込む開発手法です。開発スピード、品質、効率を劇的に向上させる可能性があります。

磯西(ベリサーブ)
はい。弊社では、「【第1回】AI駆動開発に対するQAを考える会~AIを活用した開発の品質保証をどう実現するか~」、「【第2回】AI駆動開発におけるリスクと対策の抽出ワークショップ」と2回ほど勉強会を開催しました。※8AI駆動開発は急速に広がっていますが、QAの方法論や手法の確立が追い付いているわけではありません。

※8:2026年1月末現在

井上(ベリサーブ)
この領域は、今まさに各社が模索をしている新しい領域です。今後も勉強会は継続して開催予定です。また、「どのようなリスクがあるのか」「それにどう向き合うべきか」を体系的に整理して公表したいと考えています。

インタビュー風景8

取材にご協力いただいた企業様

社名 株式会社ブレインパッド
URL https://www.brainpad.co.jp/

株式会社ブレインパッド