时政
财经
科技
虚拟货币
其他
登录
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
关注
统计数据
907
文章
0
粉丝
0
获赞
7568
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
## MLPs can learn in-context (刚才看到一个帖子一个standford phd提到的,手一滑就不见了) One of the most under-rated empirical results of this year was the fact that MLPs can learn in-context [14]. This is surprising because the attention mechanism is usually thought to be the key for this (induction heads in MHSA, etc). I replicated these findings (the in-context regression task in particular) in small MLPs that had just one hidden layer and as few as 32 hidden units, and found the weight matrices learn a fascinating and structured pattern that matches the nature of the task the authors outline in the paper. It showed an interesting mechanism for how MLPs learned the in-context classification and regression tasks outlined in the paper, that amounted roughly to a very clever memorization pattern of the training data. I think the mech interp community would have a blast figuring this out, and I want to flag this empirical phenomenon for them. On a purely architectural level, MLP-only architectures have the benefit of only using compute-intensive matmuls, which keep GPUs fed. But in practice, work like gMLPs [15] shows that adding attention really is necessary to get maximal performance in the end. How does one square these findings with the fact that MLPs can do simple in-context classification and regression tasks? What exactly is then failing in realistic settings making attention necessary? Or are the learned representations on these synthetic tasks not ones that generalize (like induction heads do) to natural language?
#MLP
#in-context learning
#memorization
#attention mechanism
#generalization
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
cognition认知 = 系统通过最小化自由能F 持续预测并适应环境的动态过程 本质: •预测性(最小化惊奇) •主动性(选择行动降低F) •具身性(F取决于物理约束) •社会性(耦合降低联合F) 不是”拥有表征” 而是”成为过程”
#认知
#自由能
#预测
#主动性
#具身性
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
这本书还是永远的智能启蒙书
#智能启蒙
#书籍
#积极
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
GenAI 最小化损失函数;CogAI 最小化自由能。
#genAI
#CogAI
#损失函数
#自由能
#人工智能
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
科学革命(paradigm shift)的自由能成本? 例子: 牛顿力学 → 相对论 - 需要重构大量概念(空间、时间) - 巨大的D_KL[q_new || q_old] 但为什么科学家最终接受? → 因为解释力提升(Expected_Error下降) 变分权衡: ΔF = ΔComplexity - ΔAccuracy 革命成功 ⟺ ΔAccuracy > ΔComplexity
#科学革命
#范式转移
#自由能成本
#解释力提升
#变分权衡
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
LLM可以生成: "The cat flew to the moon and had tea with gravity" 在语言空间中: - 语法正确 ✓ - 语义连贯(某种程度)✓ - 不违反token分布 ✓ 但在物理空间中: - 猫不能飞 ✗ - 月球没有空气(无法喝茶)✗ - 重力不是实体 ✗ LLM无法"碰壁"(无feedback loop)
#LLM
#猫
#月球
#不合理
#无反馈
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
LLM的智能是一种指数级现象⬇️ 现在替代的是靠知识吃饭的工作(hmm,码农),下一步就是替代靠认知吃饭的了,对,说的就是架构师。
#LLM
#人工智能
#职业替代
#认知
#架构师
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
说是说要和LLM做到认知共生,但实际上已经很难了。 如果不是持续的在投射与反投射中认知迭代,那只能在多个LLM间搬弄是非了。 coding这样,自然语言编程更是如此,往往AI生成的内容我每读一遍都有不同的体悟。
#LLM认知共生
#投射与反投射
#自然语言编程
#AI生成内容
#认知迭代
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
解释的尽头要么是循环,要么是自指,要么是“就是这样”。 自指不是缺陷,而是复杂系统必然的拓扑结构。
#循环
#自指
#复杂系统
#拓扑结构
#哲学
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
“存在-预测定理” 任何能够在时间上持续存在的系统,都必然实现某种变分优化过程。
#存在-预测定理
#变分优化
#系统
#时间持续性
#理论
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
要理解为什么万物收敛到变分原理,我们必须从更底层的结构去看:信息约束 + 对称性保持 + 时间一致性。 1️⃣ 变分原理的数学地位:约束下的不确定性最小化 在任何系统中,我们观测到的量(能量、熵、概率)都受到某些约束条件。 在这样的约束下,系统的自然演化可以被表述为: \delta \mathcal{F} = 0 其中 \mathcal{F} 是一个泛函(函数的函数),它可能是能量、作用量、自由能、或KL散度。 换句话说,变分原理不是物理定律的结果,而是“有定律”这一事实的表达形式: 如果一个系统是可描述的、可预测的,它的行为就必然等价于某个泛函的极值路径。 因为“可预测性” = “存在稳定泛函”。 没有泛函的系统,是纯随机的噪声,不构成“存在”。
#变分原理
#信息约束
#对称性保持
#时间一致性
#泛函极值
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
为了理解智能真是够了,不过自由能驱动的复制子概念还是几个月前在我的脑海里盘旋过一阵子的
#智能
#自由能
#复制子
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
智能不在单个系统中,而在耦合的动力学中
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#智能系统
#耦合动力学
#技术
#AI发展
#系统集成
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
为vibe coding正名
#Vibe Coding
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
流量模式的悖论:一旦陷入被收割的逻辑,你不得不为被收割喝彩👏
#流量模式
#收割逻辑
#用户悖论
#被迫喝彩
#互联网
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
傅老板把x当国内媒体呢?这一点红衣还是懂得
#傅老板
#红衣
#国内媒体
#负面
#商业
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
怎么说呢,我隐约觉得宝玉老师搬运太多把自己限制住了。 用好AI,意思不是让你自己成为编程架构师,而是你要让AI成为编程架构师啊!
#宝玉老师
#AI
#编程架构师
#搬运
#限制
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
自由能FEP不是宿命论(fatalism) , 而是generative principle 。 它告诉我们: - Life finds a way(生命找到出路) - 但which way是open的 - 我们participate in这个"finding" - 这就是agency和meaning的来源
#自由能FEP
#生命找到出路
#generative principle
#Agency
#meaning
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
⼈类-GenAI共⽣是"原核"阶段,⼈类-CogAI共⽣是"真核"阶段。 我们正处在"内共⽣理论"时刻⸺⼩的、灵活的认知核⼼(CogAI)将被"吞噬"进⼈类的认知⽣态,形成新的共⽣体。
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#人机共生
#认知智能
#CogAI
#genAI
#内共生理论
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
超过3维我们的脑子就只能交给数学了
AI高考数学测试:O3意外落后,Gemini夺冠引发热议· 67 条信息
#三维
#数学
#脑子
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
【4E Cognition】:Embodied, Embedded, Extended, Enactive 【起源】: - Varela, Thompson, Rosch(1991):The Embodied Mind - Clark & Chalmers(1998):Extended Mind - 后续发展:4E框架 【核心思想】: - Embodied:认知是具身的 - Embedded:认知是嵌入环境的 - Extended:认知可以"延伸"到外部(工具、笔记) - Enactive:认知是"行动中"的(不是被动表征)
#4E认知
#具身认知
#延伸认知
#认知科学
#行动认知
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
智能是compression还是computation? 传统观点:智能=知识压缩 - 大模型之所以"聪明",是因为压缩了人类知识 - 参数是compressed knowledge 论文暗示:智能=computational mechanism( ) - ICL机制(belief update, pattern matching)才是cognition的核心 - 知识可以external(如人类用书籍、互联网)
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#智能
#知识压缩
#计算机制
#ICL机制
#认知
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
原始汤中涌现的结构体复制子一直到今天的生物智能的意识
#原始汤
#结构体复制
#生物智能
#意识
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
AI怎么会煽情,都是背后的人 GenAI给了创造者表达的能力,但是这太可怕了,表达有原罪
#AI煽情
#GenAI表达能力
#创造者原罪
#技术伦理
#表达的风险
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
ICL不仅在分布内有效,也在分布外的few-shot prompting中有效。 ICL本质上是模型在最小化next-token预测损失时的必然副产品 当模型看到更多上下文(context)时,预测的不确定性会降低 这种"上下文依赖的损失降低"就是ICL的本质 Pretraining阶段:模型学习数据的统计结构(相关性、模式等) Test time阶段:当测试数据在分布内(in-distribution)时,模型自动利用上下文降低预测不确定性——这就是ICL 关联机制:最小化next-token loss本身就要求模型学会利用上下文,因此ICL是"免费"获得的副产品
#ICL
#Few-shot prompting
#Next-token预测损失
#上下文依赖
#分布外泛化
分享
评论 0
0
上一页
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
...
37
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞