0 关注者

4天前

Anthropic提到的一个完整的Agent评估系统包含部分： ① 任务（Task）一个具体的测试用例，比如"帮用户订一张从上海到北京的机票" ② 评分器（Grader）判断智能体表现的逻辑，可以有多个： - 代码评分器：检查代码能不能跑、测试过不过 - 模型评分器：用AI判断回答质量、语气是否得体 -人工评分器：专家审核，最准但最贵 ③ 记录（Transcript）整个过程的完整记

热门新闻