S Li

S Li

0 关注者

1个月前

coding已经不是检验当前模型能力的好参照,在这方面,前沿几家各有所长,仅靠单模型的聊天对话,能写的代码终究只是个摆设。软件工程?那就还是一个比较长远的话题。 Agent模式下,模型的稳定性和一致性是其能力的关键考量之一,毕竟这决定了它们是否可以真的被广泛应用于各种行业的生产环境。 系统提示词遵循、多类别工具使用、复杂场景下非强制规则的唤醒、工作流执行的自主性等等,这些不易考察但是至关重要的能力,会是长期角逐中保持领先的关键。