生成 AI の回答精度の判定を自動化・可視化し、サポートデスク業務の工数を大幅に削減!Ragas と LLM Observability を導入

アイレット株式会社

https://www.iret.co.jp

システム開発

アイレット株式会社

課題

  • 社内向けの生成 AI ソリューション「cloudpack サポートデータ検索システム」において、生成 AI による回答の成否判定・集計を手動で行なっており、多くの工数がかかっていた。
  • 回答生成時のパフォーマンスの計測および可視化ができておらず、分析や改善が困難だった。

対応と結果

  • RAG 評価フレームワーク「Ragas」を導入し、生成 AI の回答精度を自動判定する仕組みを構築。
  • Datadog の「LLM Observability」と連携し、回答精度の向上だけでなくパフォーマンス指標の可視化も実現。大幅な工数削減とニアリアルタイム分析を可能にした。

アイレットは、cloudpack のサポートデスク対応向けに導入していた生成 AI ソリューションの精度向上と運用効率化を目的に、新たな評価・可視化基盤を構築しました。

生成 AI の回答精度を人手で判定する運用と、可視化できないパフォーマンス指標が、運用効率化のボトルネックに

アイレット株式会社(以下、アイレット)では、社内のサポートデスク対応業務を効率化するため、社内向けの生成 AI ソリューション「cloudpack サポートデータ検索システム」を導入し、ユーザーから寄せられる技術的な問い合わせに対して、関連するドキュメントや過去の対応ナレッジを提示する仕組みを構築していました。

参考:生成 AI 導入でサポートデスク対応の工数を約9人日削減!Google Cloud を活用した問い合わせ要約・検索機能の開発

このシステムは、担当者が実際に応対に入る前段階で、生成 AI が質問内容を要約し、解決に役立ちそうな情報を提示することで、回答品質の向上と対応時間の短縮を支援するものです。

しかし、生成 AI が出力する回答は常に正確とは限らず、的確な情報を返せたかどうかを人手で判定し、その結果を集計・分析する作業が日常的に発生していました。問い合わせのたびに行なうこの作業は、担当者にとって大きな負担となり、月間で数十時間規模の工数を割く状況が続いていました。加えて、評価は担当者の経験や判断に依存しており、基準のばらつきによって評価結果が一定しないという問題も抱えていました。

また、生成 AI の動作状況を測るための詳細な運用指標(トークン消費量や API コスト、レイテンシ、エラー率、使用モデルの内訳など)は、システム上で自動的に収集・可視化されておらず、全体のパフォーマンス傾向やボトルネックを特定することが困難でした。そのため、問題が発生しても原因の切り分けや改善策の立案に時間がかかり、迅速な改善サイクルを回すことができていませんでした。

こうした背景から、回答精度の判定を自動化し、かつ生成 AI の運用状況をリアルタイムに計測・可視化できる仕組みの導入が急務となっていました。

生成 AI の精度評価を自動化し、パフォーマンスを可視化する基盤構築により、運用効率が大幅に向上!

アイレットでは、まず課題の中心であった回答精度判定の自動化を実現するため、RAG 評価フレームワークの一つである「Ragas」を導入しました。さらに、実際に現場で用いていた判断基準をもとに、「解決性」と「有用性」という軸で評価する「Aspect Critique」手法による指標をカスタム実装。加えて、検索結果の関連性を評価する「Context Relevance」という指標を組み合わせ、多様な観点から回答を評価する仕組みを構築しました。このアプローチにより、精度の高い評価と基準の統一を同時に実現しています。

評価指標の設計にあたっては、開発チームとテクニカルサポートチームが連携し、双方の知見を反映。実際の問い合わせ事例をもとにプロンプト設計を何度もチューニングし、誤判定や過剰判定を最小化しました。判定基準は単一の評価スコアではなく、複数の視点からのスコアリングを採用し、「根本的な課題解決につながるか」「間接的でも解決のヒントになるか」など、実務上の有用性を重視した形に落とし込みました。

Datadog の「LLM Observability」で生成 AI 運用監視を自動化し、パフォーマンスの最適化を実現

今回のプロジェクトでは、評価の自動化だけでなく、運用状況の可視化と分析効率の向上を目的に、Datadog の「LLM Observability」を導入しました。これにより、生成 AI の回答精度の判定結果と合わせて、トークン消費量や API コスト、レイテンシ、エラー率、使用モデル・API の内訳などのパフォーマンス指標をリアルタイムに収集・表示できるようになりました。

可視化においては、パフォーマンス指標を単なる数値ではなく、問い合わせや処理単位でトレースできる形で表示。低パフォーマンスや高コストの発生源を瞬時に特定できるようになり、システム全体の最適化にもつながっています。評価基準の統一化と可視化基盤の両輪で、従来の「人手で評価し、別途分析ツールで運用状況を確認する」という分断されたプロセスを、シームレスかつ自動的に回せる体制を整えました。

今回の取り組みにより、最大の課題だった回答精度の判定作業を完全に自動化することに成功しました。これまで問い合わせごとに担当者が行なっていた OK / NG 判定や集計作業は不要となり、月あたり約2.6人日、年間で31.2人日分の工数削減を実現。評価作業に割いていた時間を、システム改善や高度な分析といった付加価値の高い業務にあてられるようになりました。

また、分析頻度も大幅に改善。従来は週次単位でまとめて行っていた分析が、ニアリアルタイムで随時実行可能になり、問い合わせの発生から改善施策の着手までのリードタイムを短縮しました。これにより、生成 AI の精度向上サイクルをより高頻度で回すことが可能となっています。

「LLM Observability」で生成 AI 運用監視を自動化

今回構築した仕組みは単一のシステムにとどまらず、他の生成 AI ソリューションにも展開可能な汎用性を備えています。今後は、社内外の運用環境における評価・可視化基盤として活用範囲を広げ、さらなる効率化と品質向上を目指していく予定です。

生成 AI の活用は、導入して終わりではなく、運用の中で精度やパフォーマンスを継続的に改善していくことが重要です。そのためには、評価基準を明確化し、判定作業をできる限り自動化すること、そして結果を多角的に可視化して迅速に改善サイクルを回せる体制を整えることが欠かせません。アイレットは、お客様の業務内容や運用フローに合わせた最適な評価・分析環境の構築をサポートします。生成 AI の導入や運用改善をご検討の際は、ぜひお気軽にご相談ください。

(システム構成図)
①生成 AI の回答から精度判定までの一連フロー
生成 AI の回答から精度判定までの一連フロー
②「LLM Observability」実装内容の構成図
「LLM Observability」実装内容の構成図

Credit

クライアントアイレット株式会社