时政
财经
科技
登录
#语言模型
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
•“心”:语言模型、语义生成器,可以编造一切,缺乏物质性与边界。 •“身”:物质生成系统(如核糖体、机器人、嵌入式系统),有边界、有复制、有耦合。 我们要走向真正的 AGI,必须让这两者结合为一个有边界的可演化生成系统—— 即我说的“从语言大模型到身心大模型”。
#语言模型
#物质生成系统
#AGI
#身心大模型
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
那么,这和人工智能有什么关系呢?Ramstead说,这正是当代ML中缺少的东西。 语言模型是强大的,因为它们不受物理现实的限制。他们可以想象独角兽,正是因为他们不必服从物理学。
#人工智能
#语言模型
#物理现实
#当代机器学习
#独角兽
分享
评论 0
0
Tz
3周前
文章标题:God is hungry for Context: First thoughts on o3 pro 1. 背景 2025 年 6 月 10 日,OpenAI 将 o3 系列降价 80% 并推出 o3-pro。作者 Ben Hylak 获得一周内测权限后撰文分享初体验。 2. “上帝饿了”类比 作者用“上帝渴望上下文”形容新一代推理模型:只有饱餐丰富且结构化的背景,它才会发挥真正威力。 3. 两种模型定位 当今 LLM 可分日常型(3.5 Sonnet、4o)与深度推理型(o3-pro、Claude Opus):前者陪聊与轻量任务,后者一次性解决复杂问题但速度慢、成本高。 4. 正确用法心路 作者曾对 o1 失望,后悟出“把它当报告生成器”:提供上下文→设定目标→一次生成结果。同思路下,o3-pro 更敏锐,但更依赖大量上下文。 5. 实测示例 作者与合伙人将公司全部策略会纪要、目标与语音备忘录喂给 o3-pro,请它制定未来规划,输出的细节足以重排公司优先级。 6. 工具调用能力 o3-pro 在“知道自己有哪些工具、何时提问人类、何时检索外部信息”上显著进步,体现了 OpenAI 的“垂直 RL”:不只教模型怎么用工具,还教它何时用哪种工具。 7. 不足与局限 上下文不足时,o3-pro 容易过度分析;直接执行(如写 ClickHouse SQL)偶尔不如基础 o3。它更像编排者而非纯执行者。 8. 与竞品对比 作者认为 o3-pro 输出“换了维度”,在回答深度与贴合度上全面超越 Claude Opus 与 Gemini 2.5 Pro;优势在于“模型-工具-策略”三位一体,而非规模。 9. Prompt 与 Harness 启示 成功关键仍是上下文与系统提示。优秀产品靠“缰绳”(模型+工具+记忆+其他策略)把模型能力对齐,而非仅靠模型本身。 10. 一句话总结 o3-pro = 更深层推理能力 × 更清醒的工具选择 × 更依赖大量高质量上下文;真正护城河正从“谁家参数多”转向“谁能给模型最合适的上下文与工具链”。
#O3-Pro
#OpenAI
#人工智能
#语言模型
#科技新闻
分享
评论 0
0
前端之虎陈随易
3周前
为啥我没感觉到Claude 4 opus和和Claude 4 sonnet有很大的差别??
#Claude4
#Claude4Opus
#Claude4Sonnet
#AI技术
#语言模型
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
最近的一系列虚假奖励函数RLVL的训练效果最终不过是LLM的生成输出的格式遵循? 啊哈哈,LLM的生成最终只是语言结构的复制!其它的所谓LLM智能都是我们人基于语言功用的价值投射。 “常见的评估方法问题包括: 1.RL的收益可能只是用更好的格式来解释 2.使用低温或零温度加剧了上述问题。众所周知,贪婪的解码会在长时间的输出中退化。 3.评估设置缺乏透明度”
#虚假奖励函数
#RLVL
#训练效果
#LLM
#语言结构
#智能评估
#价值投射
#语言模型
#生成输出
#贪婪解码
#评估透明度
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4周前
继笔者上一篇对于LLM的记忆与泛化解读之后,本篇文章将接着带你解剖这一“顿悟时刻”,探索从 grokking 到记忆反转的隐秘联结,揭示语言模型如何从存储个体数据走向生成结构世界。
#LLM
#记忆与泛化
#Grokking
#顿悟时刻
#记忆反转
#语言模型
#结构世界
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
再谈生成式AI中的“生成行为” 语言模型生成的不是“它自己需要的东西”,而是“你希望它说的东西”。 它没有一个自我持续结构;它不会为“保留某个概念”而主动调制生成路径;它也没有一个演化性机制去选择长期适应。它只是在短时上下文中模拟动机,而非真正拥有动机。 这就是所谓的“价值饥渴症”:它不断生成,却不知道为什么。 现阶段我们与LLM交互中感受到的智能,大部分是我们面对一个能说话的实体的心理投射。(Theory of Mind)
#生成式AI
#语言模型
#智能
#价值饥渴症
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
从身之智能到心之智能是生物体的智能演化路径,现在的LLM则是直接从语言区的计算模拟生成认知智能。 在没有AI之前,我们是通过社会化网络复杂性形成共生智能,现在LLM作为exotic mind entities异类智能,会是怎样的共生symbiotic智能图景?
#智能演化
#语言模型
#共生智能
#异类智能
#认知智能
分享
评论 0
0
AI Will
1个月前
你怎么看待这个针对语言模型的智商测试? > claude 4 opus目前以120分的离线成绩和117分的Mensa挪威测试成绩领先 > o3模型在Mensa测试中得分更高,达到了135分 这些结果令人印象深刻。 不能确定这个测试有多准确,或者它是如何衡量AI的智商的? 这或许并不是评判AI智能的最佳方式 来自:Haider.
#语言模型
#AI智商测试
#Mensa测试
#AI智能
分享
评论 0
0
howie.serious
3个月前
claude团队揭秘:ai大脑不用英文也不用中文思考,而是靠“思维语言”。|这证明了英语学习/教育失败的根本原因? llm用什么语言“思考”?中文?英文? 都不是。 llms的思考,使用的不是中文或英文这样的自然语言,而是一种超越自然语言的“思维语言”。anthropic的最新研究,用实验方式首次证明了这一点,这是理解llm内部黑箱的一个巨大突破。 在llm内部,不同语言共享同一个概念空间。不论是中文、英文还是法语,这些自然语言都只是这个更深层次“思维语言”的表面形式而已。 举个例子,你用英语教llm一个概念,它能用中文流利地表达出来;你用中文教它,它一样能在英文里准确使用。语言不同,但背后的概念是一样的。 anthropic的实验很有意思:面对同一个问题,不论你用英语问(the opposite of "small" is),是中文问(“小”的反义词是),还是用法语问(le contraire de "petit" est),llm实际上都在用自己跨语言共享的特征来思考,在同一个共享的概念空间里思考,然后再把结果翻译为对应的英文、中文或法语输出给你。 对人类学习的启示? 如果你同时理解llm和人脑的运作原理,不难想到以下几点: - 人脑也不是通过中文或英文这样的自然语言思考的,而是一种更为底层、更为通用的“思维语言”; - 中文和英文只是表面差异,真正重要的是思维语言本身的运动(俗称”思考“); - 概念、事实性知识砖块和心理模型等心理表征,这些才是思维语言真正的词汇。概念语言先于自然语言。如果你掌握的思维词汇太少,不论你说哪种语言,都没法深度思考。 昨天读到anthropic的这篇文章,我心情激动。毕竟早在一年前,我就在twitter和公众号文章里多次表达这样的观点。 于是,双语对照版本文章奉上,祝你阅读愉快~
#AI大脑
#思维语言
#英语学习
#教育
#语言模型
#Anthropic研究
#概念空间
分享
评论 0
0
勃勃OC
4个月前
这是在反串吗? Perplexity 为 R1 抹去言论审核,补充一些全球公认的事实信息,叫“在开源社区拉屎,对中国有敌意”? 中国大语言模型的训练数据集处理流程有几十万个关键词、人工黑名单、工信部备案30年 您是知道的吧 换言之,为什么要专门去除对中国不利的消息呢? 😳😳😳
#信息审查
#中国
#人工审核
#人工智能
#语言模型
#数据处理
#全球信息
#开源社区
#言论自由
#中国政策
分享
评论 0
0
***土隹
4个月前
Grok 3你……😳
#Grok3
#AI
#技术
#语言模型
#OpenAI
分享
评论 0
0
宝玉
4个月前
罗福莉(福莉),出生于四川农村的“95后AI天才少女”,现任DeepSeek公司深度学习研究员,是国产大模型DeepSeek-V2的核心开发者之一。她本科毕业于北京师范大学计算机专业,硕士保送至北京大学计算语言学专业,师从万小军教授,期间在国际顶级会议ACL上发表8篇论文(含2篇一作),奠定了其在自然语言处理(NLP)领域的学术声誉。职业生涯始于阿里巴巴达摩院,主导开发了多语言预训练模型VECO,推动AliceMind项目开源;2022年加入DeepSeek后,参与研发了MoE架构大模型DeepSeek-V2,该模型以“中文能力第一梯队”和超高性价比(1元/百万Tokens)成为行业焦点。 2024年底,网传小米创始人雷军以千万年薪邀请其领导AI大模型团队,但截至2025年2月,罗福莉仍通过高中班主任回应“暂未决定”,其知乎认证信息显示为DeepSeek员工。分析认为,她的选择或反映对技术深耕与产业使命的权衡:DeepSeek正处“与国运共振”的上升期,而小米的邀约则凸显行业对顶尖人才的争夺。 罗福莉的成长轨迹融合了个人奋斗与时代机遇。她以“农村女孩”身份突破性别与资源限制,成为AI领域标杆人物,既印证“知识改变命运”的普世价值,亦展现中国AI产业崛起中青年科学家的关键角色。其职业路径的选择,不仅是个人发展问题,更折射出国产AI技术生态中企业与人才协同创新的深层命题。 罗福莉在采访中回顾了自己从农村到顶尖AI开发者的逆袭之路。她出身贫寒,父母曾质疑“女生学计算机是否适合”,但她以“探索更多可能性”的决心打破桎梏。在北师大转专业至计算机后,她通过提前规划与贵人指引(如北大导师万小军),以“目标拆解+死磕精神”实现学术突破:大三自学Python并投出首篇顶会论文,硕士期间以“博士生标准”产出20余篇顶会论文,成为业内瞩目的“ACL8篇作者”。 她坦言职业选择中的试错与坚持:曾短暂尝试产品经理方向,但最终回归技术研究,并先后加入阿里达摩院、幻方量化及DeepSeek。在DeepSeek期间,她深度参与模型研发,强调团队“技术驱动”特质,并公开评价DeepSeek-V2为“性价比之王”。
#爱上川妹子
#国产人工智能
#深度学习
#语言模型
#自然语言处理
#学术论文
#ACL会议
#北京师范大学
#北京大学
#阿里巴巴
分享
评论 0
0
小互
5个月前
我去 这个语音克隆模型有点牛P 哈哈哈 使用了 250,000 小时的中英双语语音数据训练 只需15秒的声音就能完美克隆声音,保持音色和情感 Llasa-3B 可以通过输入一个带有情感特征的语音提示(Prompt),在生成目标语音时保留提示语音中的情感特征。 基于 LLaMA 语言模型( 1B、3B 和 8B 参数规模),通过整合 XCodec2 的语音 token 提供语音生成功能。
#语音克隆
#Llasa-3B
#情感特征
#语言模型
#语音合成
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞