9小时前

ICL的表达力边界 定理(ICL的容量限制): 如果上下文长度为 L,隐藏维度为 d,则ICL最多能表示秩为 min(L, d) 的函数。 推论: •对于 L=100, d=1000 的Transformer •ICL最多能学习”100维的线性子空间” •远小于IWL的 d²=1,000,000 维参数空间 这解释了: •为什么ICL适合”快速适应”(低秩近似足够) •为什么IWL适合”长期学习”