时政
财经
科技
虚拟货币
其他
登录
#IWL
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
我们经常说的LLM的内化是在说什么?-ICL和IWL的协同:ICL探索,IWL固化 Phase 1(探索): 用户通过ICL与LLM交互 发现有效的提示模式、任务格式 ICL快速迭代,找到”what works” Phase 2(固化): 收集这些有效交互的数据 用于微调IWL(如RLHF的新一轮) Phase 3(新平衡): 更新后的IWL使得原本需要复杂prompt的任务 现在变得”天然”(内化到权重中) ICL空间被释放,可以探索更高层的任务 这是一个螺旋上升的循环: ICL → IWL → 更强的ICL → 更强的IWL → … 所以现在的基模厂商为什么要免费?主要是为了收集多样化的交互轨迹数据!
#LLM内化
#ICL
#IWL
#提示模式
#交互轨迹数据
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
语言天生具有power,体现在LLM的两种学习范式上:ICL vs IWL的区分不仅是技术的,也是政治的 允许ICL但限制IWL,意味着: "你可以快速适应,但不能进行深刻的改变" 这是一种"表面的民主化"——给予用户看似的权力(ICL), 同时保留真实的权力(IWL)给企业或精英
#LLM
#ICL
#IWL
#权力
#民主化
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
系统α(ICL)需要什么支持? • 快速的计算路径 • 灵活的表示 • 对新分布的快速适应 系统β(IWL)需要什么支持? • 稳定的长期记忆 • 准确的学习信号 • 对历史数据的综合理解 两个系统如何协作? • IWL优化参数,使ICL能够工作 • ICL在运行时适应,使IWL有机会学习 • 两者一起,实现了"学会学习"(meta-learning)
#ICL
#IWL
#meta-learning
#系统协作
#学会学习
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
LLM的IWL和ICL就是典型的环境双峰分布 (Bimodal Environment)的学习适应范式:也是对语言世界动力学的精辟概括。 ◦峰 A (高频、稳定、慢变):世界的大部分规律(物理定律、语法规则、社会常识)在很长的时间尺度内是稳定不变的。对于这些规律,最经济的策略是投入巨大能量进行一次性的、深度的学习,将其“编译”或“固化”到系统底层。 ◦峰 B (低频、易变、快变):世界也充满了各种临时的、具体的、需要快速反应的情境。对于这些情境,重新进行底层学习是不可思议的浪费。最经济的策略是拥有一个轻量级的、能够快速调用和组合底层规律的系统来应对。
#LLM
#IWL
#ICL
#环境双峰分布
#语言世界动力学
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞