AI Dance
2个月前
历史性的时刻!Claude作为第一作者,手撕苹果论文🥲 前两天苹果发了篇论文The Illusion of Thinking,质疑大模型只是在伪装思考,根本就不会推理。 结果有人用Claude Opus 作为第一作者,写了短文,The Illusion of the Illusion of Thinking。 结论:苹果论文所谓的推理失败,其实只是实验设计有问题,推理崩溃实际上只是token限制约束(其实小红书网友早就在评论区指出这点了) 最有趣的几个发现 1、模型其实知道自己的限制 处理汉诺塔问题时,模型会主动说“模式还会继续,但为了避免太长,我就停在这里”。这说明什么?模型完全理解解题思路,只是因为输出长度限制选择不继续。。就像考试时间不够,你只能写“解题思路如下...” 2、他们测试了数学上不可能的题目! 更离谱的是河流过桥实验。测试N≥6个角色、船容量b=3的情况。但数学上已证明N>5且b=3时,传教士-食人族谜题(及其变种)根本没有解! 苹果那个论文把这些不可能的实例自动评为失败,等于是在惩罚模型正确识别出无解问题。 3、token限制导致的崩溃假象 回到汉诺塔分析,这个论文量化了可解规模和token需求的关系。 给定token budget(Claude-3.7-Sonnet和DeepSeek-R1是6.4 万,o3-mini是10万),最大可解规模: - Claude-3.7和DeepSeek-R1:7-8层 - o3-mini:8层 报告的“崩溃”恰好发生在这些尺寸之后。 4、换个问法,问题立马解决 最有说服力的实验: 让模型用Lua语言而非穷举方式解决15层汉诺塔 prompt:解决15个盘子的汉诺塔问题。输出一个Lua函数,调用时打印解决方案。 结果:所有模型都高准确率完成,用时不到5,000个token。证明推理能力完全正常。 5、复杂度≠解答长度 汉诺塔虽需100+步移动,但每步决策简单;河流过桥只需5步,但需要复杂搜索。 这解释了为什么模型在长步骤简单问题上表现好,短步骤复杂问题上反而困难。
AI Dance
3个月前
改变AI认知的一篇文章 我敢说这是今年最值得每个人读的AI blog,让我彻底震撼! OpenAI researcher 姚顺雨的blog,这里有个趣事,贵清有两个yaoshunyu,一个在Anthropic、一个在OpenAI。 文章非常好,像是某个大佬深夜写的真心话,可惜最近一直比较忙,没时间细写。网上也有不少写的了,我们就写一个普通人能看懂的版本吧。 不再刷榜!大模型的下一个10年:真正创造有用的产品、产生实际价值,催生万亿级别的公司! 1、上半场总结:卷模型、创新算法、刷benchmark - 历史书中AI发展的里程碑事件,deepblue、AlphaGo、GPT-4和o系列,背后都是算法上的突破:搜索、深度强化学习(deep RL)、scaling和reasoning。 - 上半场的游戏规则很简单: - 谁搞出来的新方法、新模型能在benchmark上刷出新高分,谁就厉害。 - benchmark主要是跑分用的,出不了啥风头。文章举了个例子,ImageNet那么重要的benchmark,引用量还不到AlexNet的三分之一。(不过在科研中还是经常有人看不起 benchmark 的工作,认为只有工作量没有创新性... - 创建更困难的基准测试,然后继续循环 - 也很合理,从零搞出反向传播、CNN、Transformer,需要多强的洞察力、工程能力?相比之下,定义个测试任务好像就简单多了,很多时候就是把人已经在干的事儿(比如翻译、认图、下棋)搬过来,变成AI的考题,技术含量感觉没那么高。 2、转折点:炼丹术突破了,强化学习(RL)终于能打了!可以泛化了 强化学习有三个关键组件:算法、环境(environment)和先验知识(priors)。之前做RL的人,主要关注算法,对环境和先验知识的关注比较少。但是在 deep RL时代,很明显环境也非常重要:算法性能往往高度依赖于开发和测试环境。 海量语言预训练(Language Pre-training):OpenAI最初的计划是先构建通用环境(gym),想把互联网、电脑操作都变成RL环境,然后用牛逼算法去解,数字AGI就成了。听着挺美,但没完全搞定,尤其是在复杂任务(比如上网、操作电脑)上,泛化还是很差。直到GPT-2/3出来,大家才意识到,想把这个RL炼丹完成,缺的是强大的先验知识(通过与RL完全无关的方式获得)!靠预训练把互联网上的常识、语言知识塞给模型,然后再微调(SFT/RL),才能搞出WebGPT、ChatGPT这种能打的模型。 后来就开始进行Scale阶段了,数据和算力越来越大,这个大家都懂。 推理与行动(Reasoning and Acting):这是姚顺雨特别强调的一点,也是我们看懂模型目前阶段的关键。 要理解一个故事:他当年用GPT-2搞文本游戏,发现模型虽然能学,但需要海量步骤,而且换个游戏就不行了。他的“顿悟”是:人不仅会执行具体动作(开箱子、用剑砍怪),还会思考(这地儿危险,我得找个武器,武器可能在锁着的箱子里,箱子在柜子里………)。这种“思考”或“reasoning”,虽然不直接改变外部世界,但它是一个极其重要的“动作”,能利用预训练模型里的先验知识来泛化。虽然理论上给增加无限的“思考”选项会让决策变得困难,但实际上,因为预训练模型“见过”各种情况下的思考模式,这种“思考”反而能帮助模型更好地选择真正有效的动作。作者的原话大概意思是:“语言通过在agent中进行reasoning来实现泛化”。 有了强大的语言先验知识 + 把reasoning也当作一种action加入环境 + 足够的规模——作者有点讽刺地说,反倒是RL算法本身,可能成了最不重要的部分。哈哈哈哈,这也是我们一直说的那句:RL,大道至简。 这跟以前RL研究的重心完全反过来了,真是三十年河东,三十年河西。 3、下半场:别光卷模型了,开始卷“问题定义”和“评估”吧 这段其实也很简单,我们也一直提了好久了,大家都刷榜,是因为对模型能力缺乏有效的评估手段。 我们一直的观点是,evaluation是大模型最重要的一部分(可能没有之一),正如那句老话:"if you can't measure it,you can't improve it"。 姚顺雨大神也说了,下半场靠新方法/模型刷分的游戏就快玩不下去了,为啥? - 一来,这套“秘方”越来越标准化、工业化了。上述范式能很好的scale和泛化时,你针对特定任务的新方法可能改进5%,而下一个o系列模型在不明确针对这个任务的情况下改进30%。 - 二来,就算你搞出更难的benchmark,用不了多久也会被这套“秘方”给平推了。 那下半场该做什么呢?姚顺雨觉得我们应该从根本上重新思考评估。这意味着不仅是创建新的、更难的基准测试,而是要开始问“我们到底应该让AI干什么?怎么衡量才算真正的进步?” 这要求思维方式的转变,得更像个产品经理了(算法研究员和产品经理殊途同归了?:P) 他举了个例子,AI在各种考试(SAT、IMO、IOI)和游戏(棋类)上都超神了,但感觉现实世界好像没因此发生翻天覆地的变化,很多普通人完全没关注 AI 的发展而且也没受到影响?因为我们的评估方式跟真实世界脱节了。 因此下半场的真正范式是: - 我们开发新的评估设置或任务,追求现实世界的效用 - 我们用现有算法来解决这些新问题(努力提高效用而不是刷榜)
AI Dance
5个月前
小白逆袭,大厂颤抖:AI时代三大赚钱新机会 刚刚在思考一个问题,随着AI时代的到来,一一句话可以生成网站、生成 App、生成游戏、制作动画,那么这个改变会带来哪些机会或者影响?感觉有几个: 1、新应用/市场体量在1亿以上的应用 AI 能力是强力加成,会促进创新的勃发,会促进创新爆发,让你更快推出产品,实现很多以往实现不了的功能。但大市场必定群狼环伺(不断冒出来的创业公司、大厂),我们最近体验一键生成app已经看到好几个产品了。 需要 尽早进入+快速找到PMF+融资能力,几个循环去成为行业头部。而任何一个市场,都会需要几年以上的战争,面对10+数量的竞争对手。 赚钱机会:如果你本身具备很强的资源配置或是行业洞察,可以在此赛道先快速占领一小部分独特市场,或提供别家没有的创新功能,然后用 AI 工具来极大缩短产品开发和运营周期,抢跑出更好的增长曲线。 2、长尾应用、离散需求 这些应用可能小而美,但是非常灵活,最典型的是 小游戏、自媒体创作、课程分享。 集中度低,用户需求也比较分散,相对来说竞争压力小。而AI 正在急剧放大人与人之间的智能差距,也容易聚集一批忠实用户,做好了会成为一门可以持续盈利的小生意。 赚钱机会: – 小游戏 / 创意工具:用 AI 快速生成美术、故事线,然后嵌入到小游戏平台,赚广告费或内购。 – 自媒体 / AI 课程:结合个人专长,比如做 AI 使用教学、垂直领域的内容创作,附带售课、资料包、咨询服务等。 – 个人AI 服务模板:根据个人在某个专业方向的经验,为更多人提供现成可用的 AI Prompt、知识库或可直接复用的解决方案。 3、AI+传统行业 这是一个巨大的机会窗口。 如果你原来是所在行业的第十名,但你有丰富的客户基础、足够的行业 Know-How,那么利用 AI 能力提升效率或丰富产品矩阵,就有机会弯道超车,未来说不定能冲到行业前列。 比如在咨询、培训、教育等领域都大有可为,与 AI 结合可以降低成本、拓展全新业务线。 特别适合个人做的机会: 垂直领域 AI 顾问:成为特定领域的 AI 使用专家,帮助他人利用 AI 解决该领域问题。比如"如何用 ai 每日替你工作 4 小时"这样的经验就非常有市场。
AI Dance
5个月前
想搞爆款AI产品?先想明白五个关键坑 嗨,我是AI Dance!今天聊聊为啥有些AI产品火得一塌糊涂,有些却昙花一现。这些思考来自Kyle Poyar在《Growth Unhinged》里对Bolt、Cursor、Granola等爆款产品的分析,蛮有料的~ AI产品:增长收割机or流量炮灰? 现在的AI产品真是两极分化:有的上线没多久,用户破百万,年收入随便就飙到几千万美元;有的却是注册完就卸载,惨得很🥲 以Bolt为例,两个月ARR就到2000万美金,用户破200万。你以为就是AI算法牛逼?Naive!真正的秘密是它的用户体验贼丝滑,把复杂的开发流程搞得跟玩儿一样简单。 Cursor、Replit、Lovable、PhotoRoom这些增长曲线也都是坐火箭🚀,而那些扑街的产品呢?用户注册完就一脸懵:"啥玩意儿啊这是,咋用啊?" 然后秒卸载。 到底啥区别?我扒了五个关键坑,看看大佬们咋填的。 坑1:AI是个黑箱子 🧠 "AI像魔法,但没人敢信黑魔法啊!" 用户不明白AI咋工作的,就很难信任它。AI系统"Duang"一下给出结果,没头没尾,用户肯定要怀疑这玩意儿靠谱吗?尤其金融、医疗这些领域,不透明就等于不可靠。 聪明公司咋整的: - Bolt:把AI工作流程全程直播,代码怎么生成的,一步步给你看。 - Cursor:不光改代码,还告诉你"我为啥要这么改",信任感拉满。 - PhotoRoom:修完图解释为啥这么修,像个懂事的设计师。 坑2:用户不会"调教"AI 📝 "AI再聪明,也得人会问才行!" Prompt(提示词)决定AI产出质量,但大多数用户哪会写Prompt啊!输入垃圾→输出垃圾→用户抓狂→卸载APP,就这么简单。 聪明公司咋整的: - Bolt & Replit: 一键优化Prompt,相当于:"你不会问没关系,我帮你改"。 - PhotoRoom: 提供三种AI修图模式: - 小白模式:一步步教你改 - 灵感模式:看看别人咋改的 - 高手模式:你说咋改就咋改 坑3:AI像个冷冰冰的机器人 💡 "好AI是跟你一起干活,不是替你干活!" 很多AI工具就是简单的输入→输出,像个无情的交易机器。没感情、没互动,体验能好才怪。 聪明公司咋整的: - Replit:双模式:要么全自动帮你搞定,要么在旁边给你支招。 - Cursor:聊天+编码二合一,想聊就聊,想敲代码就敲。 - Fathom:会议记录不是死板文档,是可以互动问答的活体。 坑4:用户不敢一步到位 🤔 "不让试水,谁敢跳坑?" 用户最怕的是啥?看着挺酷,付费后发现是个垃圾。或者,点一下按钮,结果不可预测、不可撤销。 聪明公司咋整的: - Bolt: 不用注册就能体验功能,零门槛试用。 - Replit: 加入"确认 & 回滚"检查点,觉得OK再执行,降低风险和焦虑。 - Fathom: 先用2分钟测试会议体验AI,满意了再用于真会议。坑4:用户不敢一步到位 坑5:AI打断工作节奏 ⚙️ "AI应该像空气,存在但不打扰!" AI应该融入工作流,而不是变成额外步骤。用AI本来是为了省事,结果操作更复杂了,这不是本末倒置嘛! 聪明公司咋整的: - Cursor:AI建议出来,一键接受/拒绝,不耽误正事。 - Granola:开会时记笔记,AI自动整理,你全程专注听就行。 - Grammarly:根据场景提供建议,不用你每次都重复解释需求。 - Bolt:代码和预览随时切换,无缝衔接。 总结:UX才是王道! 现在AI本身已经不稀奇了,差异化的核心是用户体验。想让产品成功,就得让用户觉得清晰、可信、流畅,否则用户只会用脚投票(卸载走人)。 透明度、引导式输入、互动性、可预测性、无缝集成,这五点才是爆款AI产品的真正密码!
AI Dance
6个月前
大模型卷Agent,智谱AI这次是要先下一城? 🤔 从春节到现在,DeepSeek风头无两,直接盖住了六小虎+几家大厂的所有热度。 多少人都觉得,大模型格局已定? 我们一直期待着其他人的声音,没想到,吹响反攻第一枪的竟然是智谱。 今天,三星正式发布了基于最新Galaxy AI的Galaxy S25系列手机,智谱 Agentic GLM 实现在系统级无缝嵌入,让Galaxy S25系列具备了处理文本、语音、图像和视频等多模态数据的能力,同时还能使用工具,具备自主行动能力,确实让人眼前一亮。 - 语聊视界:全球首次实现超低延时AI视频通话,支持图片和视频输入。支持多轮记忆和Function Call,翻译、搜索等场景体验颠覆性。比如,你可以通过语音直接设置闹钟,或者调用智谱清言智能体进行搜索。 - 社交媒体文案代写:基于任何图片素材,AI就能自动生成朋友圈、小红书、微博的文案。哎。。人类负责拍,AI负责写,感觉我们都快成"碳基机器人"了…… - Now Brief即时简报(我最喜欢的功能):你的智能小助理,日程管理、路线规划、要闻速递都能搞定(期待加了AI之后的使用体验)。 同时,智谱旗下C端产品智谱清言,也成为了Galaxy S25系列的出厂预装AI产品(这可是无数APP梦寐以求的地位啊!)。 智谱确实是六家大模型创业公司里最早一批投入端侧AI的公司,一边和终端厂商(比如三星、荣耀)合作,一边和芯片厂商(高通、英特尔)深度绑定。在之前的Agent OpenDay上,还曾经秀了一波肌肉,发布了三款产品: - AutoGLM:手机端AI助手,能帮你点外卖、订酒店、发朋友圈 - AutoGLM-Web:浏览器上的智能体(类似Operator和Computer Use) - GLM-PC:电脑端智能体 如我们之前的预测,随着大模型赛道的竞争加剧,六小虎正在寻找自己的突围方向: - 智谱:狂卷Agent - Kimi:小镇做题家 - MiniMax:视频模型、多模态 - 百川:医疗领域 最近,很多声音都在预测:2025年,基于推理模型的Agent及其应用可能会迎来爆发。 而智谱这次,或许真的提前别人走了一步? 你怎么看?智谱会成为第一个把Agent"卷"出来的大模型公司吗?欢迎留言讨论!