时政
财经
科技
虚拟货币
其他
登录
#马老师
关注
Shiqi Chen
1周前
非常感谢马老师的打call !! 忍不住分享一点SkillCraft背后的故事。 初衷起源于我们去年对 embodied LLM agent RL 的探索。当时我们让大模型用 RL 学推箱子,怎么训都训不上去。探索之后我们发现,这不是 RL 的问题,而是 grounding 的问题:任务极度依赖坐标,但模型却无法从一堆二维字符串里自己提取出坐标信息。无奈之下我们当时用了简单粗暴的解法:直接改渲染函数,手动把坐标喂给模型再做 RL,同时让它做坐标转移预测来学 world model 作为 mid-training,效果很好。这条路后来写成了 SPA: 问题是解决了,但我们一直不甘心。与其每次都由先验来告诉模型"你缺的是坐标",它能不能自己发现自己被什么卡住了,然后自己造个工具,把未知的状态空间转化成它能理解的表征?说到底,工具的本质是压缩: 把一段反复出现的认知或操作开销封装起来,让后续调用的边际成本趋近于零。人类造工具如此,模型造工具也应该如此。 沿着这个思路,我们花了很长时间思考:模型应该怎么造工具?造什么样的工具?造出来之后又怎么存、怎么复用? 以及什么样的场景才能激发出模型“造工具的智能”? 于是,我们基于 OpenClaw 式的真实任务 benchmark Toolathlon,设计了四个极简协议:save_skill、get_skill、list_skills 和 execute_skill,使模型能够自主发现、调用并存储自己构造出的工具。同时,我们还合成了一批模拟真实场景中重复工作流的任务,用于系统评测模型运用这些协议的能力。 更详细的答案在 SkillCraft:
#马老师
#SkillCraft
#embodied LLM agent RL
#推箱子
#RL
#grounding
#坐标信息
分享
评论 0
0
小牛 OTC
2周前
今日深夜学习,马老师的香港演讲。
#马老师
#香港
#演讲
#深夜学习
分享
评论 0
0
Ken Wong
4个月前
马老师的英文水平比不上叉友们,可口才还是很好的。2018年回头看居然感觉那么遥远。
#马老师
#口才好
#2018年
#遥远
#怀旧
分享
评论 0
0
Ken Wong
7个月前
东哥目前最高调,马老师还是很低调。
#东哥
#高调
#马老师
#低调
#对比
分享
评论 0
0
Austin
7个月前
你喜欢哪个发型的马老师?中间是原图。 提示词:给此人换上 8 种各不相同的发型(光头,寸头/平头,渐变发型,鲻鱼头,波波头,长直发,爆炸头,脏辫),中间放原图,组成一个九宫格图。
#马老师
#发型
#九宫格
#AI
#图像处理
分享
评论 0
0
Daniel Fang
8个月前
这是风雪会中州的味道啊,求胡锡进,马老师此刻的心理阴影
#风雪会
#胡锡进
#马老师
#心理阴影
#中州
分享
评论 0
0
背包健客
8个月前
马老师刚回杭州,就立马给他一个下马威,用臭味自来水欢迎他。
#马老师
#杭州
#自来水
#臭味
分享
评论 0
0
背包健客
10个月前
马老师最快乐的时候,是每个月赚91块钱的时候。
#马老师
#快乐时光
#收入记忆
分享
评论 0
0
*土*隹*
1年前
马老师这口罩多余了
#马老师
#口罩
#多余
分享
评论 0
0
谷风
1年前
原來马老師才是德高望众
#马老师
#德高望众
#人物评价
分享
评论 0
0
***土隹
1年前
当你问马老师怎么不发言
#马老师
#发言
#沉默
#公众人物
#企业家
分享
评论 0
0
***土隹
1年前
你们就那么盼着马老师回来?我偏不准!对着干定律永远有效。
#马老师
#对着干定律
分享
评论 0
0
背包健客
1年前
马老师现身长沙?
#马老师
#现身
#长沙
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞