#ICL

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2周前

belief shift正是icl可编程的所在人与LLM投射与反投射的第三空间可以有自己的的信念？

#ICL #LLM #信念 #可编程 #第三空间

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2周前

MCP交互范式将成为基于ICL的context oriented programming标准 Skills将成为基于ICL的上下文具身经验本体的自然语言编程标准 -www.anthropic.com/engineering/code-execution-with-mcp

Claude Skills系统发布引发AI行业新变革· 56 条信息

#MCP交互范式 #ICL #context oriented programming #skills #自然语言编程

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2周前

弄来弄去还是给ICL提供上下文：给符号智能以具身经验本体

#ICL #符号智能 #具身经验 #本体 #上下文

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3周前

上次是google deepmind那篇，这次是这个：大家一起来玩ICL

AI高考数学测试：O3意外落后，Gemini夺冠引发热议· 62 条信息

#ICL #Google DeepMind #人工智能 #技术讨论 #开放参与

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3周前

人类的认知系统：基因（DNA） = In-Weight：进化尺度的固化能力（如：视觉处理、语言语法）大脑可塑性 = In-Context：个体尺度的学习能力（如：学会骑自行车、理解新概念）关键问题：什么样的"基因设计"，能最大化"大脑可塑性"？换到AI语境：什么样的weight configuration，能最大化ICL的涌现空间？

#认知系统 #基因 #大脑可塑性 #AI #ICL

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3周前

ICL的学习阶梯

#ICL #学习 #阶梯

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4周前

ICL不仅在分布内有效，也在分布外的few-shot prompting中有效。 ICL本质上是模型在最小化next-token预测损失时的必然副产品当模型看到更多上下文(context)时，预测的不确定性会降低这种"上下文依赖的损失降低"就是ICL的本质 Pretraining阶段：模型学习数据的统计结构（相关性、模式等） Test time阶段：当测试数据在分布内(in-distribution)时，模型自动利用上下文降低预测不确定性——这就是ICL 关联机制：最小化next-token loss本身就要求模型学会利用上下文，因此ICL是"免费"获得的副产品

#ICL #Few-shot prompting #Next-token预测损失 #上下文依赖 #分布外泛化

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4周前

ICL作为"时间同步"机制

#ICL #时间同步 #机制

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4周前

对称性一：压缩的必然性及悖论经过两次压缩，信息应该丢失更多但在ICL中，有时会"涌现"出新的意义这是因为两次压缩的不对称性创造了新的可能性空间

#多智能体之争：Anthropic生态VS单智能体· 77 条信息

#压缩 #信息丢失 #ICL #涌现 #不对称性

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

我们经常说的LLM的内化是在说什么？-ICL和IWL的协同：ICL探索，IWL固化 Phase 1（探索）：用户通过ICL与LLM交互发现有效的提示模式、任务格式 ICL快速迭代，找到”what works” Phase 2（固化）：收集这些有效交互的数据用于微调IWL（如RLHF的新一轮） Phase 3（新平衡）：更新后的IWL使得原本需要复杂prompt的任务现在变得”天然”（内化到权重中） ICL空间被释放，可以探索更高层的任务这是一个螺旋上升的循环： ICL → IWL → 更强的ICL → 更强的IWL → … 所以现在的基模厂商为什么要免费？主要是为了收集多样化的交互轨迹数据！

#LLM内化 #ICL #IWL #提示模式 #交互轨迹数据

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

ICL的三层机制 Layer 1：语义绑定（Semantic Binding） Layer 2：模式覆盖（Pattern Override） Layer 3：元框架注入（Meta-Frame Injection）无论是提示词还是交互范式编程，都可以操作这三个层次。其中layer3是元认知递归层，难怪我老触发sonnet 4.5的符号接地对齐！

#ICL #语义绑定 #模式覆盖 #元框架注入 #元认知递归

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

agents都是玩ICL，这个shaper是个新玩法

#ICL #shaper #Agents #新玩法

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

有一个玩ICL的

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

ICL 大有可为 2510.08191 -arxiv.org/pdf/2510.08191

#ICL #arxiv.org

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

语言天生具有power，体现在LLM的两种学习范式上：ICL vs IWL的区分不仅是技术的，也是政治的允许ICL但限制IWL，意味着： "你可以快速适应，但不能进行深刻的改变" 这是一种"表面的民主化"——给予用户看似的权力（ICL），同时保留真实的权力（IWL）给企业或精英

#LLM #ICL #IWL #权力 #民主化

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

系统α（ICL）需要什么支持？ • 快速的计算路径 • 灵活的表示 • 对新分布的快速适应系统β（IWL）需要什么支持？ • 稳定的长期记忆 • 准确的学习信号 • 对历史数据的综合理解两个系统如何协作？ • IWL优化参数，使ICL能够工作 • ICL在运行时适应，使IWL有机会学习 • 两者一起，实现了"学会学习"（meta-learning）

#ICL #IWL #meta-learning #系统协作 #学会学习

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

LLM的IWL和ICL就是典型的环境双峰分布 (Bimodal Environment)的学习适应范式：也是对语言世界动力学的精辟概括。 ◦峰 A (高频、稳定、慢变)：世界的大部分规律（物理定律、语法规则、社会常识）在很长的时间尺度内是稳定不变的。对于这些规律，最经济的策略是投入巨大能量进行一次性的、深度的学习，将其“编译”或“固化”到系统底层。 ◦峰 B (低频、易变、快变)：世界也充满了各种临时的、具体的、需要快速反应的情境。对于这些情境，重新进行底层学习是不可思议的浪费。最经济的策略是拥有一个轻量级的、能够快速调用和组合底层规律的系统来应对。

#LLM #IWL #ICL #环境双峰分布 #语言世界动力学

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

根据DeepMind的研究（Akyürek et al., 2023），ICL等价于： ΔW = u · vᵀ （秩1矩阵）其中： • u ∈ ℝᵈ：输⼊模式（"问题"的编码） • v ∈ ℝᵈ：输出⽅向（"期望答案"的⽅向）

#DeepMind #ICL #秩1矩阵 #Akyürek et al. #神经网络

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

交互范式编程（Interactive Paradigm Programming, 𝕀Rℙ²）继命令式编程Imperative、函数式编程Functional、声明式编程Declarative后的基于ICL的自然语言新编程范式 Context as code Examples as instructions Meta-prompts as control flow Validation as execution

#交互范式编程 #自然语言编程 #ICL #新编程范式 #Context as code

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

ICL的表达力边界定理（ICL的容量限制）：如果上下文长度为 L，隐藏维度为 d，则ICL最多能表示秩为 min(L, d) 的函数。推论： •对于 L=100, d=1000 的Transformer •ICL最多能学习”100维的线性子空间” •远小于IWL的 d²=1,000,000 维参数空间这解释了： •为什么ICL适合”快速适应”（低秩近似足够） •为什么IWL适合”长期学习”（需要高秩表达力） •两者互补的必然性

#ICL #transformer #容量限制 #线性子空间 #快速适应

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

关键突破：从Transformer到”任何复杂神经网络” 论文的结论部分有个惊人的陈述： “Our results remain valid if the self-attention layer is switched by other forms of contextual layers, like that of a RNN, or any layer that can take an input and optionally a context.” 这意味着： ICL ≠ Transformer的专属能力任何具有以下性质的架构都有ICL能力： 1.有一个层可以接受”上下文”（Contextual Layer） 2.这个层后面跟着一个神经网络（任何形式）满足这个条件的架构： •✅ Transformer（显然） •✅ RNN + 注意力 •✅ 状态空间模型（如Mamba） •✅ 甚至是：人类大脑（皮层 = 上下文层，皮层下结构 = MLP）

#transformer #神经网络 #ICL #RNN #Mamba

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

mark。交互范式的精髓在于ICL。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1203 条信息

#ICL #交互范式 #Mark