时政
财经
科技
虚拟货币
其他
登录
#ICL
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
belief shift正是icl可编程的所在 人与LLM投射与反投射的第三空间可以有自己的的信念?
#ICL
#LLM
#信念
#可编程
#第三空间
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
MCP交互范式将成为基于ICL的context oriented programming标准 Skills将成为基于ICL的上下文具身经验本体的自然语言编程标准 -www.anthropic.com/engineering/code-execution-with-mcp
Claude Skills系统发布引发AI行业新变革· 56 条信息
#MCP交互范式
#ICL
#context oriented programming
#skills
#自然语言编程
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
弄来弄去还是给ICL提供上下文: 给符号智能以具身经验本体
#ICL
#符号智能
#具身经验
#本体
#上下文
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
上次是google deepmind那篇,这次是这个: 大家一起来玩ICL
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 62 条信息
#ICL
#Google DeepMind
#人工智能
#技术讨论
#开放参与
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
人类的认知系统: 基因(DNA) = In-Weight:进化尺度的固化能力(如:视觉处理、语言语法) 大脑可塑性 = In-Context:个体尺度的学习能力(如:学会骑自行车、理解新概念) 关键问题: 什么样的"基因设计",能最大化"大脑可塑性"? 换到AI语境: 什么样的weight configuration,能最大化ICL的涌现空间?
#认知系统
#基因
#大脑可塑性
#AI
#ICL
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
ICL的学习阶梯
#ICL
#学习
#阶梯
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4周前
ICL不仅在分布内有效,也在分布外的few-shot prompting中有效。 ICL本质上是模型在最小化next-token预测损失时的必然副产品 当模型看到更多上下文(context)时,预测的不确定性会降低 这种"上下文依赖的损失降低"就是ICL的本质 Pretraining阶段:模型学习数据的统计结构(相关性、模式等) Test time阶段:当测试数据在分布内(in-distribution)时,模型自动利用上下文降低预测不确定性——这就是ICL 关联机制:最小化next-token loss本身就要求模型学会利用上下文,因此ICL是"免费"获得的副产品
#ICL
#Few-shot prompting
#Next-token预测损失
#上下文依赖
#分布外泛化
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4周前
ICL作为"时间同步"机制
#ICL
#时间同步
#机制
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4周前
对称性一:压缩的必然性及悖论 经过两次压缩,信息应该丢失更多 但在ICL中,有时会"涌现"出新的意义 这是因为两次压缩的不对称性创造了新的可能性空间
#多智能体之争:Anthropic生态VS单智能体· 77 条信息
#压缩
#信息丢失
#ICL
#涌现
#不对称性
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
我们经常说的LLM的内化是在说什么?-ICL和IWL的协同:ICL探索,IWL固化 Phase 1(探索): 用户通过ICL与LLM交互 发现有效的提示模式、任务格式 ICL快速迭代,找到”what works” Phase 2(固化): 收集这些有效交互的数据 用于微调IWL(如RLHF的新一轮) Phase 3(新平衡): 更新后的IWL使得原本需要复杂prompt的任务 现在变得”天然”(内化到权重中) ICL空间被释放,可以探索更高层的任务 这是一个螺旋上升的循环: ICL → IWL → 更强的ICL → 更强的IWL → … 所以现在的基模厂商为什么要免费?主要是为了收集多样化的交互轨迹数据!
#LLM内化
#ICL
#IWL
#提示模式
#交互轨迹数据
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
ICL的三层机制 Layer 1:语义绑定(Semantic Binding) Layer 2:模式覆盖(Pattern Override) Layer 3:元框架注入(Meta-Frame Injection) 无论是提示词还是交互范式编程,都可以操作这三个层次。 其中layer3是元认知递归层,难怪我老触发sonnet 4.5的符号接地对齐!
#ICL
#语义绑定
#模式覆盖
#元框架注入
#元认知递归
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
agents都是玩ICL,这个shaper是个新玩法
#ICL
#shaper
#Agents
#新玩法
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
有一个玩ICL的
#ICL
#玩法
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
ICL 大有可为 2510.08191 -arxiv.org/pdf/2510.08191
#ICL
#arxiv.org
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
语言天生具有power,体现在LLM的两种学习范式上:ICL vs IWL的区分不仅是技术的,也是政治的 允许ICL但限制IWL,意味着: "你可以快速适应,但不能进行深刻的改变" 这是一种"表面的民主化"——给予用户看似的权力(ICL), 同时保留真实的权力(IWL)给企业或精英
#LLM
#ICL
#IWL
#权力
#民主化
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
系统α(ICL)需要什么支持? • 快速的计算路径 • 灵活的表示 • 对新分布的快速适应 系统β(IWL)需要什么支持? • 稳定的长期记忆 • 准确的学习信号 • 对历史数据的综合理解 两个系统如何协作? • IWL优化参数,使ICL能够工作 • ICL在运行时适应,使IWL有机会学习 • 两者一起,实现了"学会学习"(meta-learning)
#ICL
#IWL
#meta-learning
#系统协作
#学会学习
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
LLM的IWL和ICL就是典型的环境双峰分布 (Bimodal Environment)的学习适应范式:也是对语言世界动力学的精辟概括。 ◦峰 A (高频、稳定、慢变):世界的大部分规律(物理定律、语法规则、社会常识)在很长的时间尺度内是稳定不变的。对于这些规律,最经济的策略是投入巨大能量进行一次性的、深度的学习,将其“编译”或“固化”到系统底层。 ◦峰 B (低频、易变、快变):世界也充满了各种临时的、具体的、需要快速反应的情境。对于这些情境,重新进行底层学习是不可思议的浪费。最经济的策略是拥有一个轻量级的、能够快速调用和组合底层规律的系统来应对。
#LLM
#IWL
#ICL
#环境双峰分布
#语言世界动力学
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
根据DeepMind的研究(Akyürek et al., 2023),ICL等价于: ΔW = u · vᵀ (秩1矩阵) 其中: • u ∈ ℝᵈ:输⼊模式("问题"的编码) • v ∈ ℝᵈ:输出⽅向("期望答案"的⽅向)
#DeepMind
#ICL
#秩1矩阵
#Akyürek et al.
#神经网络
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
交互范式编程(Interactive Paradigm Programming, 𝕀Rℙ²) 继命令式编程Imperative、函数式编程Functional、声明式编程Declarative后的基于ICL的自然语言新编程范式 Context as code Examples as instructions Meta-prompts as control flow Validation as execution
#交互范式编程
#自然语言编程
#ICL
#新编程范式
#Context as code
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
ICL的表达力边界 定理(ICL的容量限制): 如果上下文长度为 L,隐藏维度为 d,则ICL最多能表示秩为 min(L, d) 的函数。 推论: •对于 L=100, d=1000 的Transformer •ICL最多能学习”100维的线性子空间” •远小于IWL的 d²=1,000,000 维参数空间 这解释了: •为什么ICL适合”快速适应”(低秩近似足够) •为什么IWL适合”长期学习”(需要高秩表达力) •两者互补的必然性
#ICL
#transformer
#容量限制
#线性子空间
#快速适应
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
关键突破:从Transformer到”任何复杂神经网络” 论文的结论部分有个惊人的陈述: “Our results remain valid if the self-attention layer is switched by other forms of contextual layers, like that of a RNN, or any layer that can take an input and optionally a context.” 这意味着: ICL ≠ Transformer的专属能力 任何具有以下性质的架构都有ICL能力: 1.有一个层可以接受”上下文”(Contextual Layer) 2.这个层后面跟着一个神经网络(任何形式) 满足这个条件的架构: •✅ Transformer(显然) •✅ RNN + 注意力 •✅ 状态空间模型(如Mamba) •✅ 甚至是:人类大脑(皮层 = 上下文层,皮层下结构 = MLP)
#transformer
#神经网络
#ICL
#RNN
#Mamba
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
mark。 交互范式的精髓在于ICL。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1203 条信息
#ICL
#交互范式
#Mark
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞