Kimi K2 的一大亮点,是将文本任务里基于 token 的处理思路,成功迁移到 Agentic 场景中的 tool-call 级别:在 Agentic 任务中,tool call 就相当于“行动 token”。 什么意思呢?解释如下: 在文本任务中: CoT 是一串 token 而在Agentic 场景中: CoT 是一段 tool-call 序列,即planning 在文本任务中: 用BLEU 或ROUGE等衡量生成文本与黄金答案在 token或字符层面的相似度,如具体的machine translation, summarization 等任务。 在Agentic 场景中 Process Accuracy,用来衡量实际 tool-call 序列与理想动作轨迹的匹配度,颗粒度(这个词挺合适的😅)是tool call 级别的。 如此一来,Kimi K2 在Agentic 场景中实现了与传统 NLP 的联系,使模型的规划与执行得以像文本生成那样可度量和优化。