𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1天前
LLM的IWL和ICL就是典型的环境双峰分布 (Bimodal Environment)的学习适应范式:也是对语言世界动力学的精辟概括。 ◦峰 A (高频、稳定、慢变):世界的大部分规律(物理定律、语法规则、社会常识)在很长的时间尺度内是稳定不变的。对于这些规律,最经济的策略是投入巨大能量进行一次性的、深度的学习,将其“编译”或“固化”到系统底层。 ◦峰 B (低频、易变、快变):世界也充满了各
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3天前
交互范式编程(Interactive Paradigm Programming, 𝕀Rℙ²) 继命令式编程Imperative、函数式编程Functional、声明式编程Declarative后的基于ICL的自然语言新编程范式 Context as code Examples as instructions Meta-prompts as control flow Validation as
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3天前
ICL的表达力边界 定理(ICL的容量限制): 如果上下文长度为 L,隐藏维度为 d,则ICL最多能表示秩为 min(L, d) 的函数。 推论: •对于 L=100, d=1000 的Transformer •ICL最多能学习”100维的线性子空间” •远小于IWL的 d²=1,000,000 维参数空间 这解释了: •为什么ICL适合”快速适应”(低秩近似足够) •为什么IWL适合”长期学习”
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4天前
关键突破:从Transformer到”任何复杂神经网络” 论文的结论部分有个惊人的陈述: “Our results remain valid if the self-attention layer is switched by other forms of contextual layers, like that of a RNN, or any layer that can take an in
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4天前
mark。 交互范式的精髓在于ICL。