向阳乔木

向阳乔木

0 关注者

4天前

Anthropic提到的一个完整的Agent评估系统包含部分: ① 任务(Task) 一个具体的测试用例,比如"帮用户订一张从上海到北京的机票" ② 评分器(Grader) 判断智能体表现的逻辑,可以有多个: - 代码评分器:检查代码能不能跑、测试过不过 - 模型评分器:用AI判断回答质量、语气是否得体 -人工评分器:专家审核,最准但最贵 ③ 记录(Transcript) 整个过程的完整记

热门新闻