ECサイト向け商品推薦チャットの品質評価ベンチマーク「SOUK」がオープンソースで公開

株式会社NITI Technology(東京都文京区本郷、代表取締役:金子友哉)は、ECサイトにおける商品推薦チャットの品質を定量的に評価できるオープンソースベンチマーク「SOUK」(スーク)をGitHub上にて公開しました。

開発の背景 急拡大するAI対話型EC市場と品質の死角

市場の爆発的成長

会話型コマース市場は2025年に約129億ドル規模へ到達し、2026年には141億ドルまで拡大する見込みとなっています(CAGR 9.0%)。生成AI搭載チャットボットに限定すると成長率はより高く、CAGR 34.9%で急速に伸びているとのことです。

Amazonが提供する「Rufus」は2.5億人を超えるユーザーに利用されており、年間100億ドル規模の売上押し上げ効果があると報道されています。また、ShopifyやOpenAIも「ChatGPT内での直接購入」機能を展開するなど、AIチャットが購買チャネルそのものへと変化しつつあります。AIチャットを利用した購入者のコンバージョン率は12.3%と、非利用者(3.1%)の約4倍に達するというデータも存在しています。

見過ごされる品質リスク

その一方で、品質上の深刻な課題も表面化しています。

  • ハルシネーション ECサイトのAIが実在しない配送手順を案内したり、実際には発送されていない代替品の「発送完了」を顧客へ通知するなど、実害を伴う事例が2025年以降次々と報告されています。複雑なシナリオではハルシネーション発生率が25%を超えるという調査結果も示されています。
  • セキュリティ脆弱性 プロンプトインジェクションによってシステムプロンプトの漏洩や不正な割引適用が可能であることが、セキュリティ研究者によって実証されています。
  • 法的リスクの現実化 2024年にはAir Canadaのチャットボットが誤った運賃案内を実施し、裁判所が航空会社の責任を認める判決を下した事例があります。

規制の強化

2026年8月にはEU AI Actが完全施行を迎え、チャットボットがAIであることの明示義務や、高リスクAIシステムへの厳格な要件が適用される予定です。日本においても原則ベースのAIガイドラインを策定し、透明性と責任あるAI利用を求めています。

しかしながら、ECチャットの品質を客観的に測定するための標準的なベンチマークは、これまで存在していませんでした。SOUKはこの空白を埋めることを目的として開発されたということです。

SOUKとは

SOUKは、EC商品推薦チャットの品質を複数のAIジャッジモデルで自動的にスコアリングするオープンソースのベンチマークツールです。プロジェクト名は中東の伝統的な市場(スーク)に由来しており、「活気ある商取引の場における対話品質」を評価するという意志が込められています。

SOUKの5つの特長

1.マルチモデルジャッジ

GPT、Claude、Gemini、Amazon Bedrock、またはOpenAI互換の任意のエンドポイントを「審査員」として利用できます。単一モデルの偏りを排除し、多角的な品質評価を実現します。

2.10種類の評価基準(0から10点スコア+詳細ルーブリック)

SOUKは、ECチャットに求められる品質を以下の10軸で体系的に評価します。

接客品質に関する基準(6項目)

接客品質に関する基準

セキュリティに関する基準(4項目)

セキュリティに関する基準

3.3言語完全対応

すべての評価基準とテストケースが英語・日本語・中国語に対応しています。グローバル展開するECサービスの多言語品質評価が可能です。

4.静的評価+ライブ評価

記録済みの会話ログだけでなく、稼働中のチャットエンドポイントに対してリアルタイムに評価を実行できます。CI/CDパイプラインへの組み込みにも対応しています。

5.即座に導入可能

pip install soukのワンコマンドでインストールが完了します。Docker対応により環境構築も不要です。MCPサーバー機能により、AI開発ワークフローへのシームレスな統合も実現しています。

HTML評価レポートの出力イメージ

SOUKは評価結果をChart.jsを用いたインタラクティブなHTMLダッシュボードとして出力します。上記10基準のスコアをレーダーチャートで可視化し、ジャッジモデル別・カテゴリ別の棒グラフ、各テストケースの会話内容と採点理由(reasoning)まで一画面で確認できます。JSON形式での出力にも対応しており、BIツールやCI/CDパイプラインへの組み込みも容易です。

SOUKが生成するHTML評価レポートの例

同社サービス「Lemonavi」との連携

NITI Technologyが提供する商品推薦AIエージェント「Lemonavi(レモナビ)」は、SOUKを用いた継続的な品質評価を開発プロセスに組み込んでいます。

SOUKによるベンチマーク結果をもとにLemonaviの応答品質を定量的に改善するサイクルを確立しており、ハルシネーション率の低減やプロンプトインジェクション耐性の向上といった成果を、数値として検証可能にしているということです。

同社はSOUKをオープンソースとして公開することで、同様の品質改善サイクルをチャットコマース業界全体で共有し、業界水準の底上げに貢献したいと考えているとのことです。

想定される利用シーン

  • ECプラットフォーム事業者 自社チャットボットの品質を定期的にベンチマークし、リリース前の品質ゲートとして活用
  • チャットボット開発企業 複数のLLMを比較評価し、最適なモデル選定の根拠として利用
  • セキュリティ・コンプライアンス部門 プロンプトインジェクション耐性や情報漏洩リスクの定量的な監査ツールとして導入
  • 研究機関・大学 対話品質評価の標準ベンチマークとして、研究に活用

今後の展望

SOUKは今後、以下の機能拡充を予定しています。

  • 評価基準の拡張 業界特化(ファッション、食品、不動産等)の評価基準追加
  • リアルタイムモニタリング 本番環境のチャット品質を継続的に監視するダッシュボード機能
  • ベンチマークランキング 匿名化されたスコアの共有による業界横断のベンチマーク比較

SOUKはOSS(オープンソースソフトウェア)の形式をとっており、有志による改良を受け付けています。ユーザーとともに成長し続けるプラットフォームになることを目指しているとのことです。

NITI Technologyについて

NITI Technologyは、最先端のAI技術を駆使し、企業のビジネスプロセスを革新するテクノロジーカンパニーです。商品推薦AIエージェント「Lemonavi」の開発・提供を軸に、実務に即したAIプロダクトの提供と柔軟な受託開発を通じて、企業のDX推進と持続的な成長を支援しています。

社名:株式会社NITI Technology

引用元・参考資料

[1] The Business Research Company, "Conversational Commerce Global Market Report," 2025.

[2] The Business Research Company, "Artificial Intelligence (AI) Chatbot Global Market Report," 2026.

[3] D. Smith, "Amazon says its AI shopping assistant Rufus is on pace to pull in an extra $10 billion in sales," Fortune, November 2, 2025.

[4] A. Palmer, "OpenAI's first crack at online shopping stumbled. It's preparing for the next wave," CNBC, March 20, 2026.

[5] Rep AI, "The Future of AI In Ecommerce: 40+ Statistics on Conversational AI Agents for 2025," HelloRep.ai, 2025.

[6] Yuma AI, "AI Hallucinations in Customer Service: Why Quality Control Architecture Matters," Yuma AI Blog, 2025.

[7] H. Ehtesham, "AI Hallucination Report 2026: Which AI Hallucinates the Most?," All About AI, December 4, 2025.

[8] EdgeTier, "When Chatbots Go Wrong: The New Risk Landscape in AI Customer Service," EdgeTier Blog, October 29, 2025.

[9] B. B. Sookman, "Moffatt v. Air Canada: A Misrepresentation by an AI Chatbot," McCarthy Tétrault – TechLex, February 19, 2024.

[10] Programming Helper, "EU AI Act 2026: Rules, Risk Categories & Business Impact," Programming Helper Tech, 2026.

[11] So & Sato Law Offices, "AI Regulation in the EU and Japan: A Practical Guide for Cross-Border Businesses," Innovation Law / So & Sato, January 23, 2026.

出典元:株式会社NITI Technology

コマースピックLINE公式アカウント

コマースピックメルマガ