#grounding

1周前

非常感谢马老师的打call !! 忍不住分享一点SkillCraft背后的故事。初衷起源于我们去年对 embodied LLM agent RL 的探索。当时我们让大模型用 RL 学推箱子，怎么训都训不上去。探索之后我们发现，这不是 RL 的问题，而是 grounding 的问题：任务极度依赖坐标，但模型却无法从一堆二维字符串里自己提取出坐标信息。无奈之下我们当时用了简单粗暴的解法：直接改渲染函数，手动把坐标喂给模型再做 RL，同时让它做坐标转移预测来学 world model 作为 mid-training，效果很好。这条路后来写成了 SPA: 问题是解决了，但我们一直不甘心。与其每次都由先验来告诉模型"你缺的是坐标"，它能不能自己发现自己被什么卡住了，然后自己造个工具，把未知的状态空间转化成它能理解的表征？说到底，工具的本质是压缩: 把一段反复出现的认知或操作开销封装起来，让后续调用的边际成本趋近于零。人类造工具如此，模型造工具也应该如此。沿着这个思路，我们花了很长时间思考：模型应该怎么造工具？造什么样的工具？造出来之后又怎么存、怎么复用？以及什么样的场景才能激发出模型“造工具的智能”？于是，我们基于 OpenClaw 式的真实任务 benchmark Toolathlon，设计了四个极简协议：save_skill、get_skill、list_skills 和 execute_skill，使模型能够自主发现、调用并存储自己构造出的工具。同时，我们还合成了一批模拟真实场景中重复工作流的任务，用于系统评测模型运用这些协议的能力。更详细的答案在 SkillCraft:

#马老师 #SkillCraft #embodied LLM agent RL #推箱子 #RL #grounding #坐标信息