𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
23小时前
语言天生具有power,体现在LLM的两种学习范式上:ICL vs IWL的区分不仅是技术的,也是政治的 允许ICL但限制IWL,意味着: "你可以快速适应,但不能进行深刻的改变" 这是一种"表面的民主化"——给予用户看似的权力(ICL), 同时保留真实的权力(IWL)给企业或精英
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
23小时前
系统α(ICL)需要什么支持? • 快速的计算路径 • 灵活的表示 • 对新分布的快速适应 系统β(IWL)需要什么支持? • 稳定的长期记忆 • 准确的学习信号 • 对历史数据的综合理解 两个系统如何协作? • IWL优化参数,使ICL能够工作 • ICL在运行时适应,使IWL有机会学习 • 两者一起,实现了"学会学习"(meta-learning)
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
5天前
LLM的IWL和ICL就是典型的环境双峰分布 (Bimodal Environment)的学习适应范式:也是对语言世界动力学的精辟概括。 ◦峰 A (高频、稳定、慢变):世界的大部分规律(物理定律、语法规则、社会常识)在很长的时间尺度内是稳定不变的。对于这些规律,最经济的策略是投入巨大能量进行一次性的、深度的学习,将其“编译”或“固化”到系统底层。 ◦峰 B (低频、易变、快变):世界也充满了各