向阳乔木 0 关注者 关注 4天前 Anthropic提到的一个完整的Agent评估系统包含部分: ① 任务(Task) 一个具体的测试用例,比如"帮用户订一张从上海到北京的机票" ② 评分器(Grader) 判断智能体表现的逻辑,可以有多个: - 代码评分器:检查代码能不能跑、测试过不过 - 模型评分器:用AI判断回答质量、语气是否得体 -人工评分器:专家审核,最准但最贵 ③ 记录(Transcript) 整个过程的完整记 前往原网页查看