S Li 0 关注者 关注 7个月前 coding已经不是检验当前模型能力的好参照,在这方面,前沿几家各有所长,仅靠单模型的聊天对话,能写的代码终究只是个摆设。软件工程?那就还是一个比较长远的话题。 Agent模式下,模型的稳定性和一致性是其能力的关键考量之一,毕竟这决定了它们是否可以真的被广泛应用于各种行业的生产环境。 系统提示词遵循、多类别工具使用、复杂场景下非强制规则的唤醒、工作流执行的自主性等等,这些不易考察但是至关重要的 前往原网页查看