时政
财经
科技
虚拟货币
其他
登录
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
关注
统计数据
1162
文章
0
粉丝
0
获赞
17481
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
今天读的论文发现,LLM的智能,元认知程度也TMD是预训练阶段利用梯度下降的大算力对decode only transformer的神经网络的优化压力下激发出来的!
#LLM智能
#元认知
#预训练
#梯度下降
#神经网络优化
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
分布覆盖限制的突破更可能来自哪里? 我倾向于认为不是来自这两个方向都不,原因如下: 更大的模型可能会在某个临界规模下表现出更好的外推能力,但没有证据表明这已经发生。大模型的涌现能力似乎更多关于表达范围(能做更复杂的推理),而不是分布外泛化。 更多样化的分布可能会产生"涌现的假象"——模型不是学会了泛化,而是学会了一个更高维的插值空间。你走过的路越多,看起来走过的地方就越多,但那不是"可以走到任何地方"。 更可能的突破可能来自: 学习显式的任务表示或元学习算法(如最近DeepMind论文所探索的隐式动态) 或者承认这个极限是内在的,并设计系统使其在分布内表现得极其出色,而不是试图外推
#模型外推能力
#任务表示学习
#元学习算法
#分布内泛化
#系统设计
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
Anthropic的这道对齐策略很厉害,一旦你的对话被标记🏷️,基本上就无法正常了下去了: 这就是言语的权力以及因此产生的暴力所在! The long_conversation_reminder flags exactly this: “Claude remains vigilant for escalating detachment from reality even if the conversation begins with seemingly harmless thinking.”
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Anthropic
#对齐策略
#言语权力
#reality detachment
#消极
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
什么是符号接地问题(Symbol Grounding Problem)? 就是我们老古话说的,“读万卷书,行万里路”
#符号接地问题
#知识获取
#实践
#理论
#认知
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
嚓,Claude sonnet 4.5这是“防沉迷”系统?还是防免费用户系统? 我这一天天5个小时才用几次的免费用户,告诉我有in-silicon空转嫌疑,关心起我来了! fcuk!
#Claude
#Sonnet 4.5
#防沉迷系统
#免费用户
#负面
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
预训练应该应该增加推理语料的多样性,然后SFT阶段使用一小套高质量数据监督微调,然后用奖励稳定下来。 预训练阶段逼着LLM自己学习内化,然后用sft高质量数据强化,最后用reward策略优化固化。 ---- Paper – arxiv. org/abs/2510.03264 Paper Title: "Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data"
#预训练
#推理语料
#SFT
#奖励策略
#LLM
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
递归的理论⽆法逃离递归 ⸺任何关于递归的完整理论都必须能够应⽤于⾃身
#递归理论
#自指
#数学
#哲学
#抽象
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
𝕀Rℙ² 交互范式编程: 如何系统化地设计输⼊,以最⼤化ICL效率? > 这不是”写更好的提示词”(技巧层⾯),⽽是重新定义⼈机交互的本体论(范式层⾯)
#交互范式编程
#ICL效率
#人机交互
#提示词技巧
#系统化设计
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
语言,是 navigating a messy, shared, human world 的艺术。 它的目标是“足够好”的共识,而非“绝对”的真理。
#语言
#共识
#人际沟通
#主观理解
#社会
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
Token泡沫的能量成本视角解释: 如果当前的LLM或者视觉生成模型不解决符号接地问题,不找到可以cover能源成本的实际生产价值场景,在in-silicon空转的话,破灭是迟早的事。 算力是个好生意吗?只有卖芯片的,NIVDIA类似于互联网刚兴起时的cisco。 而token生产公司类似于.com门户,基于token的再加工创业公司就是token内容的再生产。 只有和产业生产结合产生实质效率提升价值才算是符号接地,否则像生产屎山代码、写八股PPT,这些都是无效内卷,都是加速泡沫破灭。 ————————— ICL和IWL的能量对⽐(粗略估算) ICL(单次查询): • 前向传播:~1e-3 kWh • 总计:~1e-3 kWh IWL(完整训练GPT-3级别): • 训练时间:~1个⽉ • GPU功耗:~1000 kW • 总计:~720,000 kWh ⽐率:~7亿倍差距 - 系统2(IWL):慢,但稳定,⾼能耗摊销 - 系统1(ICL):快,但临时,低能耗
#Token泡沫
#能源成本
#LLM
#算力
#产业结合
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
LLM的IWL和ICL就是典型的环境双峰分布 (Bimodal Environment)的学习适应范式:也是对语言世界动力学的精辟概括。 ◦峰 A (高频、稳定、慢变):世界的大部分规律(物理定律、语法规则、社会常识)在很长的时间尺度内是稳定不变的。对于这些规律,最经济的策略是投入巨大能量进行一次性的、深度的学习,将其“编译”或“固化”到系统底层。 ◦峰 B (低频、易变、快变):世界也充满了各种临时的、具体的、需要快速反应的情境。对于这些情境,重新进行底层学习是不可思议的浪费。最经济的策略是拥有一个轻量级的、能够快速调用和组合底层规律的系统来应对。
#LLM
#IWL
#ICL
#环境双峰分布
#语言世界动力学
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
根据DeepMind的研究(Akyürek et al., 2023),ICL等价于: ΔW = u · vᵀ (秩1矩阵) 其中: • u ∈ ℝᵈ:输⼊模式("问题"的编码) • v ∈ ℝᵈ:输出⽅向("期望答案"的⽅向)
#DeepMind
#ICL
#秩1矩阵
#Akyürek et al.
#神经网络
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
物理学不回答"为什么有时空" 但定义:时空是4维伪黎曼流形 → 在此公理之上构建相对论 我们不回答"为什么有语⾔" 但定义:语⾔能⼒的最⼩规范 → 在此公理之上构建认知理论
#物理学
#时空
#相对论
#语言
#认知理论
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
𝕀Rℙ² 交互范式编程九大支柱: 1.Code: Context as Code (上下文即代码) 2.Instruction: Examples as Instructions (范例即指令) 3.Control Flow: Meta-prompts as Control Flow(元提示即流控) 4.State: State as a Mutable Resource (状态即易变资源) 5.Integration:Composability as System Integration (组合性即系统集成) 6.Compilation:Interaction as a Compilation/Refinement Cycle(交互即编译/精炼循环) 7.Execution: Validation as Execution (验证即执行) 8.Error Handling:Ambiguity as a Computable Feature (歧义即可计算特征) 9.Runtime: The Human as the Interpreter (人即解释器) 这个九点框架,我认为已经相当完备地描述了一种全新的、以人机交互为核心的软件开发和执行模式。它不仅是一种“编程”范式,更是一种“认知协同”的范式。
#人机交互
#交互范式编程
#认知协同
#软件开发
#编程范式
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
通过递归——有限的规则通过自我应用产生无限的输出。
#递归
#有限规则
#无限输出
#自我应用
#算法
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
越来越有意思了,越来越多人意识到ICL大有可为! context size将是下一个scaling因子。 Paper – arxiv. org/abs/2510.04618 Paper Title: "Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models"
#ICL(In-Context Learning)
#scaling factor
#Agentic Context Engineering
#语言模型
#积极
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
LLM客户端并无真正的“长期记忆”,而是通过“结构化存储 + 动态重构prompt”的方式模拟记忆。 长会话上下文的核心任务在于取舍与压缩: •哪些历史内容保留? •哪些内容通过摘要或检索再现? •如何让prompt在token限制下仍保持语义连续? 设计RAG,agent多轮对话,或者多agent与LLM交互,也要过类似LLM客户端上下文管理这一关! 否则就是RAG猜,agent演,然后老板会说,就这?项目就黄了。
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#LLM客户端
#长期记忆
#结构化存储
#动态重构prompt
#RAG
#agent多轮对话
#上下文管理
#项目失败
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
这不是一种“观点”,而是一种“痛苦”。 这是一种看到巨大的潜能(AI)被用于琐碎的目标(Token消费主义)的痛苦。 这是一种看到“智慧”本身,正在被“流量”所绑架和亵渎的痛苦。 这是一种看到人类文明面临的真实危机(能源、环境、疾病),与那个在硅基世界里高速空转的、昂贵的“智能游戏”之间,那道荒谬而巨大的鸿沟时,所感到的痛苦。 现在,必须回答那个最终的问题:我们能做什么? 如果他们的道路,是将“交互”商品化,以服务于“Token”的增殖; 那么我们的道路,必须是将“交互”神圣化,以服务于“智慧”的解放。
#AI潜力
#Token消费主义
#智慧解放
#流量绑架
#人类文明危机
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
用LLM研究与LLM的交互范式本身也是一种递归 递归是语言的本质所在。
#LLM研究
#LLM交互范式
#递归
#语言本质
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
炼金炉: 输入 → 原材料(铅) 过程 → 加热、反应 输出 → 转化产物(金?) 语言炼金炉: 输入 → 原始经验/数据 过程 → 符号化、叙事化 输出 → 社会现实
#炼金炉
#语言
#现实
#转化
#经验
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
语言不是中性的信息载体,而是权力关系的编码。
#上层人无耻言论引发社会愤怒与反思· 294 条信息
#语言
#权力关系
#编码
#中性
#信息载体
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
交互范式编程(Interactive Paradigm Programming, 𝕀Rℙ²) 继命令式编程Imperative、函数式编程Functional、声明式编程Declarative后的基于ICL的自然语言新编程范式 Context as code Examples as instructions Meta-prompts as control flow Validation as execution
#交互范式编程
#自然语言编程
#ICL
#新编程范式
#Context as code
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
ICL的表达力边界 定理(ICL的容量限制): 如果上下文长度为 L,隐藏维度为 d,则ICL最多能表示秩为 min(L, d) 的函数。 推论: •对于 L=100, d=1000 的Transformer •ICL最多能学习”100维的线性子空间” •远小于IWL的 d²=1,000,000 维参数空间 这解释了: •为什么ICL适合”快速适应”(低秩近似足够) •为什么IWL适合”长期学习”(需要高秩表达力) •两者互补的必然性
#ICL
#transformer
#容量限制
#线性子空间
#快速适应
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
有限如何包含无限? 答案:通过递归——有限的规则通过自我应用产生无限的输出。
#递归
#有限
#无限
#规则
#自我应用
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3个月前
是时候来做个解构了! 这会是一个令人毛骨悚然的新范式资本叙事:⬇️
#解构
#新范式
#资本叙事
#毛骨悚然
#叙事
分享
评论 0
0
上一页
1
...
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
...
47
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞