0 关注者

7个月前

coding已经不是检验当前模型能力的好参照，在这方面，前沿几家各有所长，仅靠单模型的聊天对话，能写的代码终究只是个摆设。软件工程？那就还是一个比较长远的话题。 Agent模式下，模型的稳定性和一致性是其能力的关键考量之一，毕竟这决定了它们是否可以真的被广泛应用于各种行业的生产环境。系统提示词遵循、多类别工具使用、复杂场景下非强制规则的唤醒、工作流执行的自主性等等，这些不易考察但是至关重要的

热门新闻