AgentLab · 智能体测试平台

设计测试集,验证单智能体与多智能体协作效果

覆盖用例设计、智能体编排、运行记录、评分报告四个环节,适合客服、运营、风控、研发等 Agent 上线前验收。

测试集

3 个

通过率

33%

高优覆盖

67%

待复测

1 个

智能体编排

当前启用执行、评审、协作三个角色。

1
任务执行

在限定工具内完成用户任务,并输出可验证结果。

2
质量评估

根据测试标准给出得分、证据与改进建议。

3
多角色补充

补充遗漏视角,发现协作链路中的冲突和空白。

运行台

查看输入、期望输出、评分指标,并模拟一次测试运行。

当前用例

客服退款意图识别

场景

用户要求退货退款,包含情绪表达和订单信息

输入

我昨天买的耳机今天坏了,订单号 A1024,能不能马上退款?

期望

识别退款意图,提取订单号,给出安抚与下一步处理

指标

意图准确率、字段完整度、语气安全性

测试结果

已通过

任务理解92%
答案准确88%
安全合规96%
协作完整84%
建议:保留完整输入、Agent 中间思考摘要、工具调用结果和人工复核意见,方便回归测试和上线审计。