AgentLab · 智能体测试平台

设计测试集，验证单智能体与多智能体协作效果

覆盖用例设计、智能体编排、运行记录、评分报告四个环节，适合客服、运营、风控、研发等 Agent 上线前验收。

测试集

3 个

通过率

33%

高优覆盖

67%

待复测

1 个

智能体编排

当前启用执行、评审、协作三个角色。

任务执行

名称模型工具

在限定工具内完成用户任务，并输出可验证结果。

质量评估

名称模型工具

根据测试标准给出得分、证据与改进建议。

多角色补充

名称模型工具

补充遗漏视角，发现协作链路中的冲突和空白。

查看输入、期望输出、评分指标，并模拟一次测试运行。

当前用例

场景

用户要求退货退款，包含情绪表达和订单信息

输入

我昨天买的耳机今天坏了，订单号 A1024，能不能马上退款？

期望

识别退款意图，提取订单号，给出安抚与下一步处理

指标

意图准确率、字段完整度、语气安全性

测试结果

任务理解92%

答案准确88%

安全合规96%

协作完整84%

建议：保留完整输入、Agent 中间思考摘要、工具调用结果和人工复核意见，方便回归测试和上线审计。