宝玉

统计数据

774

文章

0

粉丝

0

获赞

6912

阅读

3个月前

严谨一点来说应该是 StoryBook 自己是一个 Agent，它有 20 多个 Tools。Agent 的特点就是能自主的调用工具收集上下文完成任务，而工具是用来和环境交互辅助完成任务的。以后这应该也是趋势，ChatGPT、Gemini 这样的地方是入口，里面有一堆 Agents，你访问某个特定的功能，会唤起某一个或者某几个 Agent 协作完成任务。

#多智能体之争：Anthropic生态VS单智能体· 79 条信息

#storybook #agent #ChatGPT #Gemini #工具

3个月前

忘记这是 X 上哪位朋友的网站，有比较严重的 bug，小心云服务账单爆掉，有知道的帮提醒下。感觉像是 Vibe Coding 的结果🤪

#X平台 #bug #云服务账单 #Vibe Coding #提醒

3个月前

Scaling Law 不起作用了，泡沫要破了

币圈“1011”六倍崩盘：高杠杆爆仓潮，谁在裸泳？· 6415 条信息

#Scaling law #泡沫 #经济 #负面 #技术

3个月前

GPT-5 发布完，我就一个请求：把 GPT-4.5 还回来吧

#GPT-5 #GPT-4.5 #人工智能 #技术更新 #用户反馈

3个月前

穿越百万年的技术进化图谱 Historical Tech Tree 历史科技树是 Étienne Fortier-Dubois 发起的一个项目，旨在将从史前到今天的整个技术、发明以及（部分）发现的历史进行可视化呈现。与其他同类可视化项目不同，这棵科技树特别强调技术之间的关联：如先决条件、改进、灵感来源等等。 "技术的进步，如同星辰大海，永无止境，而我们，正是其中闪耀的星河。"

#技术进化 #历史科技树 #Étienne Fortier-Dubois #技术关联 #可视化

3个月前

推荐阅读：AI 如何“征服”美国经济：一份图文并茂的常见问题解答原文：How AI Conquered the US Economy: A Visual FAQ 作者：Derek Thompson 人工智能是百年来最宏大的科技建设项目。它究竟是什么样子的？美国经济已经一分为二。一边是热火朝天的 AI 经济，另一边则是萎靡不振的消费经济。你可以在经济统计数据中看到这一点。上个季度，人工智能领域的支出增长超过了消费者支出的增长。如果没有 AI，美国的经济增长将会微不足道。你可以在股市中看到这一点。在过去两年里，股市增长的约 60% 来自与 AI 相关的公司，如微软、英伟达和 Meta。如果没有 AI 热潮，股市的回报率将惨不忍睹。你可以在商业数据中看到这一点。根据 Stripe 的数据，自称为“AI 公司”的企业在该平台上的收入增长中占据主导地位，并且它们的增长速度远远超过任何其他类型的公司。没人能断定 AI 热潮是下一次工业革命的证据，还是下一个巨大的泡沫。我们只知道它正在发生。我们都可以停止讨论“如果 AI 在未来的某个时间点主导经济会发生什么？”不，AI 经济已是此时此刻的现实。无论好坏，我们都已身处其中。那么，人工智能热潮究竟是什么？它是如何发生的，所有这些用于构建 AI 的资金从何而来，谁在使用这项技术，它是否正在提高人们的生产力？今天，我将回归我早期博客写作的风格，尝试用图表来解答一系列常见问题，为你呈现一幅视觉指南，解答这个核心问题： AI 热潮的规模有多大？人工智能有几个简单的构成要素：计算机芯片、数据中心里的服务器机架、海量的电力，以及保持一切正常运行不致过热的网络和冷却系统。这些硬件极其昂贵。在过去六个月里，四家在人工智能领域投资最多的公司——Meta、谷歌、微软和亚马逊——在芯片、数据中心等方面的花费在 1000 亿到 2000 亿美元之间。《华尔街日报》的 Christopher Mims 写道：“最有价值的科技公司正在以前所未有的速度购买和建设。”

特朗普宣布美国5000亿AI投资计划事件· 38 条信息

#AI经济 #美国经济 #AI热潮 #科技公司 #经济增长

3个月前

推荐阅读：大模型大逃杀：一山不容「六小虎」中国AI领域聚集了最多钱和人才的几家创业明星公司，为什么集体失意？摘录一段零一万物的：一开始，不少零一万物的早期产品核心成员，是为了做出“Super App”，才选择加入零一万物。一名知情人士记得，李开复承诺他们，公司会给予产品立项很高的自由度：“开复鼓励大家对Super App的形态进行自由探索，只要有好想法，公司就给团队和资源试水。” 这样的承诺为零一吸引了不少人才，包括在飞书工作过的曹大鹏和蓝雨川。很快，曹大鹏就做出了PopAi，一款在海外上线的AI办公工具。效果也不错——截止2024年3月，PopAi的ROI已经打正，每周付费的增长率达到了30-40%，高峰期ARR接近千万美元。这本是一场不错的胜仗。若是延续下去，PopAi会成为零一万物找到PMF（产品-市场适配度）的代表作，也会成为零一万物继续融资、维持生存的重要砝码。但不出一年，零一万物却戏剧性地暂时搁置了PopAi。原因也相当戏谑。2024年3月，月之暗面的产品Kimi在国内出圈，由于担心丢失国内市场，零一万物决定将产品的重心，从成熟的海外市场，转向国内。当月，零一万物的高管就拍板，复刻Kimi，在国内上线一款AI生产力工具“万知”——一款几乎每家AI公司都有的对话框产品。最终，被零一寄予厚望的“万知”，分走了PopAi的大部分人力和金钱。失去了迭代和营销的资源，PopAi急转直下，“付费平均每个月都跌20%”。就这样，零一在厮杀中反而丢掉了一个重要武器。更具戏剧性的是，被零一效仿的对手，月之暗面，其看似华丽的增长数据，也是用近乎饮鸩止渴的手段实现。 “内部对标的是全盛时期的小红书增长曲线。”月之暗面员工刘磊对“智能涌现”打了个比方：如果Kimi第一个月的正常增长达到了200万，下个月和下下个月就得达到400万和600万，“没有任何一款初期产品能够达到这样的指数型增长。” 为了达成不现实的数据指标，月之暗面只能选择激进的投流。在过去的2024年，Kimi的投放预算一度水涨船高。另有月暗的员工告诉“智能涌现”，投流的最高峰在2024年12月，预算达到了惊人的2亿元。只是，烧出来流量，需要靠不断迭代的产品力去承接。但Kimi团队忽略了这一点。 “Kimi只管花钱，但产品团队怎么和增长团队配合，怎么迭代功能去提高用户留存，完全没有概念。”上述员工直言，靠“长文本”出圈后，Kimi在2024年，几乎没有再造一个爆点功能，“维持原有的增长率，已经很不容易。” 这就是这场“六小虎”生存战的荒谬之处：他们将“超越对手”当做了核心目标，而正常的产品研发流程、健康的业务增长方法，都因为杀红了眼，统统被忽略。总结PopAi的成功，一名零一万物员工告诉“智能涌现”，关键在于匹配市场需求。但为了尽快上线，“万知”跳过了用户调研、竞品对比、产品形态规划。后来，万知这款没有差异化竞争力的产品，推出仅3个月后，就因成绩不佳停止了运营。并非没有人给高层敲响警钟。 “万知”和PopAi两款产品的负责人曹大鹏，并不是“万知”立项的支持者。相反，他是最反对的一个。不少PopAi团队成员，也对“万知”有所顾虑，原因在于国内工具类市场已经被Kimi占据的心智，彼时入局不是好时机。产品策略的不合，最终导致人才的出走。2024年8月，曹大鹏选择离职，随后辗转加入字节，出任AI视频生成工具“即梦”的产品负责人。一名专做高级人才招聘的猎头，曾在2023年给两家六小虎的高管提出建议，让他们尽快从大厂和创业者中找一位产品主理，去弥补产品基建的短板。其中一家小虎的产品经理，也曾形容在其中做产品的感觉为“刀耕火种”：“完全不成体系，连最基础的A/B Test（一种产品效果的测试方法），也没有人去搭建。” 事与愿违。两家企业拒绝猎头的口径如出一辙，“他们和我说，做产品相对做技术而言简单得多，只要做好技术，他们做产品也不在话下。” 六小虎往往都是一手做产品，一手做模型。最后，两家企业招人的预算，都用在了技术人才上。

#大模型 #零一万物 #PopAi #Kimi #内卷

3个月前

在使用 AI 辅助编码工具（比如 Claude Code）时，你是否难以进入心流状态？对我来说，因为每次交互后都得等待，这让我很容易分心，因为等待我就去刷推或者看剧，很难专注。也有人说因为用 AI 辅助，不担心遇到问题“卡”在那里过不去，反而容易进入心流。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#AI编码工具 #心流状态 #Claude Code #分心 #等待

3个月前

上次我给个朋友推荐 Claude Max 就是这么建议的：“你现在的工资水平，应该不止 $100 一小时，使用得当的话用 Claude Code 可以每月帮你节约 10 个小时以上” AI 产品的订阅，应该看作一种投资，节约时间的投资。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#Claude #AI产品 #时间节约 #投资 #效率提升

3个月前

转：在 2025 年，OpenAI 和 Anthropic 都展现出了相当惊人的增长势头。OpenAI 在过去 6 个月里，其年化经常性收入（ARR）从 60 亿美元翻倍至 120 亿美元；而 Anthropic 则在 7 个月内，将这一数字从 10 亿美元增长了 5 倍，达到了 50 亿美元。如果我们比较一下两者的收入来源，情况就相当有意思了： - OpenAI 在面向消费者和企业的订阅收入方面占据主导地位。 - 在 API（应用程序编程接口）调用收入上，Anthropic 以 31 亿美元对 29 亿美元略胜一筹。 - Anthropic 的 API 收入主要由编程领域贡献，其两大顶级客户 Cursor 和 GitHub Copilot 仅这两家就创造了 14 亿美元的收入。 - OpenAI 的 API 收入来源则可能要广泛和多元化得多。 - 此外，Anthropic 自家的 Code Claude 产品已经实现了 4 亿美元的年化经常性收入，这个数字在短短几周内就翻了一番。我的感觉是，Anthropic 的增长极度依赖于其在编程领域的统治力——现在几乎所有的编程助手产品都在默认使用 Claude 4 Sonnet 模型。如果未来的 GPT-5 对此发起挑战，例如，一旦 Cursor 和 GitHub Copilot 转投 OpenAI，我们或许会看到当前的市场格局发生逆转。

#OpenAI #Anthropic #ARR增长 #编程领域 #市场竞争

3个月前

请问这种图是什么工具做的？draw io 只能做虚线动画

#绘图工具 #draw.io #虚线动画 #技术问题 #咨询

3个月前

GitHub Models 现在为每个 GitHub 账号免费提供一个兼容 OpenAI 的推理 API！

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 854 条信息

#GitHub #OpenAI #API #免费 #模型

3个月前

普通人用好 Coding Agent 的一个经验技巧，就是为 Agent 提供验证结果的方法，这样 Agent 就会自己去测试去修改，直到完成任务，不需要自己反复测试修改。举个例子，我在用 Claude Code 或者 Copilot/Curosr 的 Agent mode，会在提示词中加一句类似的话： Please write tests and verify the tests by running `npx jest <testfilepath> -c './jest.config.ts' --no-coverage` 就是让 AI 写完代码要写测试，并且自己执行命令行去验证测试结果。（这个前提是我已经配置好了自动化测试，如果没有配置好自动化测试，可以让 AI 帮你配置好）。虽然有时候 AI 也会主动去测试，但是 AI 不一定会写测试，另外它可能运行 npm test 这种全局测试，等的时间太长。当你要求 AI 写测试，并告诉它如何验证后，它就会去验证自己写的对不对，如果有问题会主动修复，直到通过测试，但是也要小心它为了通过测试修改测试代码假装通过，人工审查一下还是有必要的。类似的技巧还有人为 AI 提供一个运行代码和截图工具，让 AI 写完 UI 后运行并截图，自己去对比写出来的 UI 和原始设计稿的差异，然后迭代修改，直到和设计稿接近。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#Coding Agent #自动化测试 #AI代码测试 #AI Agent技巧 #代码验证

3个月前

WSJ: 谢你十亿美元的工作邀约，马克·扎克伯格。但我选择拒绝。在当今的硅谷，忠诚和传奇人物正促使一些人拒绝那些高得离谱的优厚待遇。为了在生成式 AI 的竞赛中迎头赶上，马克·扎克伯格在几个月前联系了 OpenAI 的前首席技术官米拉·穆拉蒂 (Mira Murati)，提出收购她刚刚起步的初创公司——Thinking Machines Lab。当她拒绝后，这位 Meta 的首席执行官发起了一场全面的“挖人大战”。在接下来的几周里，他接触了穆拉蒂公司约 50 名员工中的十几位，试探他们跳槽的意愿。他的主要目标是：安德鲁·图洛克 (Andrew Tulloch)，一位顶尖研究员，也是该公司的联合创始人。据知情人士透露，为了挖走他，扎克伯格开出了一个十亿美元级别的薪酬包，如果在至少六年的时间里，加上顶格的奖金和非凡的股票表现，其总价值可能高达 15 亿美元。图洛克拒绝了。他的同事也无一离开。 Meta 的发言人安迪·斯通 (Andy Stone) 称这份报价的描述“不准确且荒谬”，并表示任何薪酬包都取决于股价的上涨。他还补充说，Meta 对收购 Thinking Machines 不感兴趣。即使在硅谷这个明星工程师长期以来拥有巨大经济影响力的地方，拒绝上亿美元的薪酬包也实属罕见。但随着 AI 人才争夺战的愈演愈烈，那些拥有最雄厚资金储备的公司发现，“钞能力”并非万能。虽然一些 AI 研究员如同自由人一样，为了更高的薪酬和权力在各个实验室之间跳槽，但也有相当一部分人对自己选择的领导者表现出坚定不移的忠诚。这些领导者是科技界的传奇人物，他们的名字本身就如同摇滚巨星一般具有号召力。不同初创公司独特的文化将员工紧密地联系在一起。与此同时，经过多年的轮番挖角，各家公司在人才防守方面也变得越来越精明。 OpenAI 及其前员工（如穆拉蒂）创办的公司，是扎克伯格招聘闪电战的常客。从 AI 竞赛的早期开始，先驱们就以参与创造通用人工智能（AGI，即在大多数任务上比人类更聪明的系统）这一历史性使命来吸引研究人员。正是由萨姆·奥特曼 (Sam Altman)、埃隆·马斯克 (Elon Musk) 和伊利亚·苏茨克维 (Ilya Sutskever) 等人联合创立的 OpenAI，将这一使命变成了一种准宗教般的追求，其非营利宪章旨在确保这项工作能够造福全人类。 OpenAI 首席执行官萨姆·奥特曼和曾任 OpenAI 首席技术官、后创立 Thinking Machines Lab 的米拉·穆拉蒂，都偏爱扁平化的汇报层级。 Meta 已经接触了超过 100 名 OpenAI 的员工，并成功雇佣了至少 10 名。7 月 25 日，扎克伯格任命曾在 OpenAI 工作三年的中国研究员赵晟嘉 (Shengjia Zhao) 领导 Meta 新成立的超级智能团队。据知情人士透露，那些迄今为止拒绝了 Meta 橄榄枝的 OpenAI 研究员之所以选择留下，是因为他们相信 OpenAI 最接近实现通用人工智能，他们希望在一家规模较小的公司工作，并且不希望自己的劳动成果主要被用于以广告为驱动的产品。扎克伯格从 Anthropic 挖到的人才就更少了。这家市值 1700 亿美元的初创公司由达里奥·阿莫迪 (Dario Amodei) 领导，五年前他离开 OpenAI 创办该公司时，带走了一批顶尖人才。 Anthropic 的七位联合创始人至今仍在公司。他们中的许多人是在十多年前通过“有效利他主义”这个紧密的圈子认识阿莫迪的。这是一场在研究人员中广受欢迎的社会运动，因为它早期就关注到 AI 可能失控并毁灭人类的风险。他们中的一些人曾住在旧金山的一栋集体公寓里，辩论如何最有效地捐出自己的财富，以及 AI 所带来的风险。扎克伯格从这家初创公司至少挖走了两名员工——乔尔·波巴 (Joel Pobar) 和安东·巴赫金 (Anton Bakhtin)——他们两人都曾在 Meta 工作多年。伊利亚·苏茨克维已采取措施，保护其公司的人才免受潜在的挖角。苏茨克维在去年联合创办的初创公司 Safe Superintelligence (SSI) 的构建方式，使其相对难以被挖角。与阿莫迪不同，苏茨克维没有从 OpenAI 挖走一大批研究员加入他。苏茨克维的大多数员工在硅谷并不出名，部分原因在于该公司正在寻找那些有新想法、有前途的技术专家，以便苏茨克维亲自指导。公司不鼓励他们在领英资料上提及 SSI，部分原因是为了防止其他公司试图挖走他们。今年早些时候，苏茨克维拒绝了扎克伯格收购 SSI 的提议。穆拉蒂在 OpenAI 工作了六年，于去年九月离职，她也拥有自己的一群追随者。她来自阿尔巴尼亚，在 OpenAI 还是一个小研究实验室时就加入了，帮助推出了公司的第一款产品，并作为首席技术官管理着公司几乎所有方面的事务。在 OpenAI，她以高情商和毫无架子而闻名，这为她赢得了研究和工程人员的忠诚。在 Thinking Machines，她也采用了与 OpenAI 和 SSI 类似的无差别汇报层级，即使是高级研究员，其头衔也只是“技术团队成员”，这是向贝尔实验室那种扁平、共事的文化致敬，而贝尔实验室也是 OpenAI 的灵感来源之一。当她今年二月创办 Thinking Machines 时，超过 20 名 OpenAI 的同事追随她而来，其中包括联合创始人约翰·舒尔曼 (John Schulman)，他是 ChatGPT 背后关键人物之一，几个月前才刚刚跳槽到 Anthropic。穆拉蒂的许多研究员来自 OpenAI 的后训练团队，这个研究部门打造了 ChatGPT，并负责教 AI 模型如何与人类交流。 Meta 一直在为其位于加州门洛帕克的办公室招募 AI 人才。穆拉蒂究竟在打造什么，即使对她的一些投资者来说，也是一个严守的秘密。这些投资者最近向该公司注资了 20 亿美元。公司公开的使命是让“AI 系统更容易被理解、可定制且更强大。” 穆拉蒂最近表示，公司正在“构建能与你自然与世界互动方式相契合的多模态 AI”，并将在“未来几个月内”分享其首款产品。这家初创公司在旧金山教会区 (Mission District) 一个较为安静的地方租下了一间办公室，距离 OpenAI 仅有几个街区。《连线》杂志此前曾报道过 Meta 接触 Thinking Machines 人才的一些细节。图洛克是 Thinking Machines 的联合创始人之一，他是扎克伯格和 Meta 超级智能实验室新任负责人亚历山大·王 (Alexandr Wang) 激烈招聘攻势的目标，两人都给他发了大量信息，邀请他加入。图洛克来自澳大利亚，毕业于悉尼大学，在校期间拥有理科生中最高的平均绩点 (GPA)。在剑桥大学读研究生之前，他在 Facebook 的机器学习部门工作了 18 个月。之后，他搬到加州，在 Facebook 的 AI 研究小组工作，并最终成为一名杰出工程师，这是该公司最高的技术职位之一。“他绝对是公认的天才中的天才，”曾与图洛克共事的前 Facebook 高管迈克·维纳尔 (Mike Vernal) 说。 2016 年，在图洛克加入 Facebook 几年后，OpenAI 的总裁格雷格·布罗克曼 (Greg Brockman) 曾试图聘请他成为该组织的首批员工之一。布罗克曼在给埃隆·马斯克的一封邮件中写道，图洛克在 Facebook 的年薪是 80 万美元，他很可能会试图以此为基础进行谈判。当时，OpenAI 给新员工的待遇是 17.5 万美元年薪外加 12.5 万美元的年度奖金。 “安德鲁非常接近同意了。但他担心薪水降幅太大，” 布罗克曼在 2 月 21 日的邮件中写道。他当时没有加入 OpenAI。七年后，当 ChatGPT 已经成为病毒式轰动、公司估值飙升时，图洛克最终还是加入了。

#AI人才争夺 #扎克伯格挖角 #OpenAI忠诚度 #图洛克拒绝 #AGI使命驱动

3个月前

Anthropic 宣布：禁止 OpenAI 访问 Claude 因被指控违反服务条款，OpenAI 本周失去了对 Claude API 的访问权限。 WIRED 上推荐的所有产品均由我们的编辑独立挑选。但是，我们可能会从零售商和/或通过这些链接进行的产品购买中获得补偿。多位知情人士向《连线》杂志透露，Anthropic 于本周二取消了 OpenAI 对其模型的 API 访问权限。OpenAI 接到通知，其访问权限因违反服务条款而被切断。 “Claude Code 已经成为各地程序员的首选，因此得知 OpenAI 自己的技术人员在 GPT-5 发布前也在使用我们的编程工具，我们并不感到意外，” Anthropic 的发言人 Christopher Nulty 在给《连线》杂志的一份声明中表示。“不幸的是，这直接违反了我们的服务条款。” 根据 Anthropic 的商业服务条款，客户不得使用该服务“构建竞争性产品或服务，包括训练竞争性 AI 模型”，也不得对服务进行“逆向工程或复制”。在 OpenAI 对 Claude 的访问权限发生变化之际，据报道，这家 ChatGPT 的制造商正准备发布一款新的 AI 模型 GPT-5，传闻该模型在编程方面表现更出色。据知情人士透露，OpenAI 并未通过常规的聊天界面使用 Claude，而是通过特殊的开发者访问权限（API）将其接入自己的内部工具。这使得该公司能够进行测试，评估 Claude 在编程和创意写作等方面与自家 AI 模型的能力对比，并检查 Claude 对涉及儿童性虐待材料（CSAM）、自残和诽谤等类别的安全相关提示词的反应。这些结果帮助 OpenAI 比较自家模型在类似条件下的行为，并根据需要进行调整。 “评估其他 AI 系统以衡量进展和提高安全性是行业标准做法。我们尊重 Anthropic 切断我们 API 访问权限的决定，但这令人失望，因为我们的 API 仍然对他们开放，” OpenAI 的首席通讯官 Hannah Wong 在给《连线》杂志的一份声明中说。 Nulty 表示，Anthropic 将“继续确保 OpenAI 拥有用于基准测试和安全评估的 API 访问权限，因为这是整个行业的标准做法。” 对于 OpenAI 当前的 Claude API 限制是否以及如何影响这项工作，《连线》杂志请求澄清，但该公司未予回应。多年来，顶尖科技公司切断竞争对手的 API 访问权限一直是科技行业的一种策略。Facebook 曾对 Twitter 旗下的 Vine 采取过同样措施（此举引发了反竞争行为的指控），上个月 Salesforce 也限制了竞争对手通过 Slack API 访问某些数据。这甚至不是 Anthropic 第一次这么做。上个月，在传闻 OpenAI 将收购 AI 编程初创公司 Windsurf 后，Anthropic 限制了 Windsurf 对其模型的直接访问。（那笔交易最终告吹）。当时，Anthropic 的首席科学家 Jared Kaplan 在接受 TechCrunch 采访时谈到取消 Windsurf 对 Claude 的访问权限时说：“我认为我们把 Claude 卖给 OpenAI 会很奇怪。” 在切断 OpenAI 对 Claude API 的访问权限的前一天，Anthropic 宣布对其 AI 驱动的编程工具 Claude Code 实行新的速率限制，理由是使用量爆炸性增长，以及在某些情况下出现了违反其服务条款的行为。

#Anthropic #OpenAI #Claude API #服务条款 #竞争

3个月前

关于 GPT-4.5/5 及更多信息的摘要：太长不看版 GPT-4.5 (“Orion” / 猎户座) * 最初以 Orion 为代号开发，并计划作为 GPT-5 发布。 * 性能令人失望：与 GPT-4o 相比没有重大飞跃。 * 失败原因： * 用于预训练的高质量网络数据日益枯竭。 * 优化方法在小模型上有效，但无法扩展到大模型。 * 后果：于 2025 年 2 月作为 GPT-4.5 发布，并迅速失去了重要性。 GPT-5 * 焦点：侧重于实用性改进，而非量子跳跃式的发展。 * 编程与数学：能编写更简洁、功能更丰富、用户体验更友好的代码。 * 智能体能力：更擅长处理复杂的任务列表和边缘案例（例如，客服退款）。 * 效率：能更高效地使用计算资源，在不大幅增加算力消耗的情况下提供高质量答案。 * 新技术： * 采用强化学习与“通用验证器”（Universal Verifier），该验证器能自动核查答案。 * 基于 o 系列（o1, o3）的经验，该系列在纯推理任务上表现强劲，但在聊天对话中性能下降。 * 结果：实现了增量式但具有商业价值的改进——但并非像 GPT-3 到 GPT-4 那样的飞跃。问题与内部动态 * 技术障碍： * 聊天模型（“学生模型”）的性能下降。 * 预训练的局限性和数据稀缺。 * 内部矛盾： * 研究人员因 Meta 的优厚薪酬（锁定式合同）而离职。 * 研究与商业之间的冲突：抵制与微软建立过于紧密的关系。 * 研究主管 Mark Chen 与副总裁 Jerry Tworek 在 Slack 上发生公开摩擦；同时，Mark Chen 在团队重组和研究员离职事件中也是一个有争议的人物。与微软的交易 * 微软拥有到 2030 年的独家权利，并计划在营利性公司架构中持有约 33% 的股份。 * 战略性谈判正在进行中，同时 OpenAI 正在为可能的 IPO 做准备。

#GPT-4.5性能未达预期 #GPT-5侧重实用性改进 #OpenAI内部矛盾 #OpenAI与微软合作 #AI模型发展瓶颈

3个月前

The Information：揭秘 OpenAI GPT-5 崎岖的研发之路 OpenAI 在开发 GPT-5 过程中遭遇的种种困境，预示着整个行业 AI 进展的放缓。研究人员相信，强化学习领域的进步将有助于克服这一障碍。核心要点 • GPT-5 将展现出超越其前辈的实质性改进，但其性能上的提升将无法与早期 GPT 系列模型的性能飞跃相提并论。 • 今年，OpenAI 遭遇了一系列技术难题，使其 o3 及其他模型的研发一度陷入困境。 • 研究主管 Mark Chen 与一位副手之间的分歧在内部通讯工具 Slack 上被公之于众。

#OpenAI #GPT-5 #研发困境 #Mark Chen #AI进展放缓

3个月前

现在很多 Context Engineering 谈的是如何构建 AI Agents 用到的技术，对于普通人未必适用，我总结了一点普通人使用 AI 时用得上的 Context Engineering。 Context Engineering 核心是两点：一、更少的上下文二、更准确的上下文一、更少的上下文这条有点反常识，现在提示词都超长，似乎提示词不长就不好了，但实际上，提示词太长会影响生成结果，产生幻觉，尤其是太多无关的内容在上下文更会如此。对此两点注意的： 1). 多开新会话而不是同一个会话一直聊当你会话太长，后续你发的内容，AI 不容易抓住重点，可能会忘记你前面说的，最好是到一定程度，让 AI 帮你总结一下重点，然后新开会话。如果是和当前会话无关的任务，直接新开会话。 2). 一次一个小的任务，而不是太复杂的任务这有点像人，当你任务太多太复杂，AI 很难完成好，但是你让 AI 一次完成一个小任务，就好很多。二、更准确的上下文准确的上下文好理解，就是让 AI 更准确的知道你想要什么，以及它有完成任务所需要的信息要让 AI 获得更准确的上下文，有两种主要方式，这两种方式互为补充。一种就是我们提供准确和充足的上下文给 AI，另一种就是让 AI 帮我们找到上下文。 1. 我们提供准确和充足的上下文给 AI AI 并不知道我们知道的信息，所以我们需要主动告诉AI我们知道它不知道的信息，比如说让AI帮我写简历，那我得把我的信息都告诉AI，不然它也写不出来。使用AI写代码，一个实用的技巧就是把你知道的相关的文件都提供给它参考，让它可以读到文件内容，这样它就不会遗漏重要信息。 2. 让 AI 帮我们找到上下文现在 AI Agent 都有能力帮我们找上下文，但能力有好优化，对于普通人来说，这几点直观重要： 1). 选擅长 Agent 任务模型 Claude 4 Opus/Sonnet, OpenAI o3 是 Agent 效果最好的，现在国产的很多专门为 Agent 优化过的模型也很强了，比如 Doubao Think 1.6, GLM 4.5, Kimi K2 等等 2). 为 AI 提供合适的工具 Agent 最重要的就是有工具能力，能借助工具去找上下文，但是它只有内置的几个工具，有时候需要你提供额外的工具会更有效，比如现在的 MCP 工具，可以让 AI 访问到一些内部的数据，或者操作浏览器等等。编程的时候，我自己有个常用的技巧：就是让 AI 写测试代码，并告诉AI如何测试单个文件，这样 AI 就可以自己去验证自己写的结果，实现完功能写测试，写完测试运行，运行出错去修复，直到完成，这样不需要太多干预就可以得到不错的结果，当然还是要人工审查一下，有时候 AI 为了通过测试会无所不用其极…… 3). 让 AI 先做计划，避免在错误的方向越走越远对于复杂一点的任务，如果AI方向错了，就会在错误的方向越走越远，白白浪费tokens，现在像 Claude Code 这样的AI Agent都会有Plan mode，就是先做计划，做完计划仔细看一下计划内容，如果方向不对，就需要让它改正，或者直接重开新会话，调整提示词，让 AI 搞清楚正确的方向是什么，方向对了再去执行。上面就是我整理的一点经验技巧，希望对你有用，也欢迎交流分享。

#AI #Context Engineering #提示词优化 #AI Agent #任务分解

3个月前

前几天在 X 上刷到一段《让子弹飞》和《甄嬛传》的英语配音视频，音色逼真、英语流利到我以为是真人配的，后来才发现原来是用 B站新发布的 IndexTTS2 文本转语音模型做的。当时心里还打了个小问号，这么好的效果会不会只是剪辑出来的宣传视频？🧵

#IndexTTS2 #文本转语音模型 #B站 #英语配音 #AI

3个月前

据说这“Please don't confuse your Google Search with [YOUR JOB] Degree”（请不要将您的“谷歌搜索”与我的“医学学位”混为一谈）杯子卖的不错，可以做个 ChatGPT 或其他 AI 版本的尤其是医生，放个在这被子在桌子上，直接堵住那些拿 ChatGPT 结果来问的患者的嘴 🤪

#ChatGPT #AI #医生 #患者 #医疗咨询

3个月前

今天看到的对于 Vibe Coding 最形象生动的比喻： > Vibe Coding 就像把信用卡给一个孩子，却没有先向他解释什么是债务。 > 可以想象，第一阶段是欣喜若狂的。我只要在商店里挥舞这张小小的塑料卡片，就能拿走任何我想要的东西！ > 这很像——AI 现在什么都能做了！没人需要学编程了！快看它刚刚为我创造了什么！ > 但等上一个月，你就会收到信用卡账单。我真的需要买所有那些东西吗？我该如何摆脱这个困境？ > 对于“跟着感觉走”的程序员来说，情况是相似的。我的代码坏了。所有这些文件和文件夹到底是干什么的？我该怎么才能修好它？我花在“vibe coding”上的 400 美元能退款吗？ > 如果你看不懂代码，你唯一的办法就是请求 AI 帮你修复它，这就像用一张新的信用卡去偿还另一张卡的债务。

#AI编程：自学or科班？新旧码农之争· 156 条信息

#Vibe Coding #AI编程 #技术债务 #代码可维护性 #过度依赖AI

3个月前

论上下文工程的实践，Claude Code 的做法我觉得是大道至简： 1. 当前会话所有历史记录保留（90%上下文之前不会主动压缩），不变换工具列表这样可以保证上下文不因为压缩损耗，不修改历史会话记录也可以确保命中 Prompt Caching 节约成本 2. 通过子 Agent （Task 工具），既可以让子 Agent 的上下文独立完整，又可以让主 Agent 的上下文清晰简洁。就像一个专业的管理者，规划好后让下属去完成各种子任务，自己聚焦于主任务 3. 用 TODO 工具，做计划，实时更新进度，让执行路径清晰，并可以让 AI 不迷失在上下文中，聚焦于要执行的 TODO List Item

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#上下文工程 #Claude Code #大道至简 #子 Agent #TODO 工具

3个月前

连线: Meta 的 AI 挖角运动，找到了新目标 Meta 向米拉·穆拉蒂的 AI 初创公司十几名员工伸出了橄榄枝，希望他们加入其新成立的超级智能实验室。其中一人收到的 offer 价值超过 10 亿美元。马克·扎克伯格正掀起一场人才争夺战，为他新成立的 Meta 超级智能实验室（Meta Superintelligence Labs）招募顶尖 AI 人才。在试图挖空 OpenAI（并成功挖走了几位顶尖研究员）之后，他似乎已将目光投向了下一个目标。科技巨头 Meta 已经接触了米拉·穆拉蒂（Mira Murati）那家仅有 50 名员工的初创公司——Thinking Machines Lab (TML)——的十几名员工，或向他们发出了 offer。（可能有人不记得了，穆拉蒂曾是 OpenAI 的首席技术官。）一位了解谈判内情的知情人士向《连线》杂志透露，其中一份 offer 的价值在数年内总计超过 10 亿美元。多位消息人士证实，其余 offer 的价值在四年内介于 2 亿至 5 亿美元之间。消息人士称，仅在第一年，一些员工就被保证能拿到 5000 万至 1 亿美元的薪酬（该实验室的发言人拒绝对此发表评论）。然而到目前为止，在 Thinking Machines Lab，没有一个人接受这份 offer。 Meta 的公关总监安迪·斯通（Andy Stone）在给《连线》杂志的一份声明中对这篇报道提出了异议。“我们只向 TML 的少数几个人发出了 offer，虽然其中有一份数额巨大的 offer，但具体细节有出入，”他说。“说到底，这一切让人不禁要问，是谁在背后操纵这种说法，其目的又是什么？” 根据《连线》杂志看到的信息，扎克伯格最初的接触方式非常低调。在某些情况下，他会直接在 WhatsApp 上给目标人选发一条私信，请求交谈。之后，面试进程会非常快——先是与 CEO 本人进行一次长谈，接着是与首席技术官安德鲁·“博兹”·博斯沃思（Andrew “Boz” Bosworth）及其他 Meta 高管的对话。以下是扎克伯格在 Meta 超级智能实验室成立前，发给一位潜在招募对象的信息（如今的语气也大致如此）： “多年来，我们一直在关注您在推动技术进步和让 AI 惠及每个人方面所做的工作。我们正在对研究、产品和基础设施进行一些重要投资，以便为人们打造最有价值的 AI 产品和服务。我们乐观地认为，每一位使用我们服务的用户都将拥有一个世界级的 AI 助手来帮助他们完成任务，每一位创作者都将拥有一个可供其社区互动的 AI，每一家企业都将拥有一个可供其客户互动以购买商品和获得支持的 AI，每一位开发者都将拥有一个最先进的开源模型来进行构建。我们希望将最优秀的人才带到 Meta，我们非常乐意与您分享更多关于我们正在构建的东西。” 消息人士称，在这些对话中，博兹坦率地阐述了 Meta 将如何与 OpenAI 竞争的愿景。虽然这家科技巨头在构建尖端模型方面落后于其规模较小的竞争对手，但它愿意利用其开源策略来削弱 OpenAI。其思路是，Meta 可以通过发布与 ChatGPT 制造商直接竞争的开源模型，来将这项技术商品化。 “自今年年初以来，压力一直存在，我认为随着 Llama 4 的仓促推出，这种压力达到了顶峰，”一位 Meta 内部人士告诉我。Meta 最新模型系列的推出因性能提升困难而被推迟，而一旦发布，又因该公司似乎在操纵基准测试以使其模型看起来比实际更好而引发了大量争议。

#Meta #AI人才争夺 #扎克伯格 #米拉·穆拉蒂 #高薪挖角

3个月前

问：为啥有人说提示词中让大模型扮演一个角色已经没啥用了，但是openai 提示词还是这么写啊？到底角色扮演对于输出内容有没有用呢？答：扮演角色可以简单直接的让AI明白自己要做的任务，聚焦于特定领域结果的生成。另外 GPT 在训练的时候，有各种训练数据，有的质量高有的质量低，而默认情况下，生成高质量数据和低质量数据的概率差不多，但是当你给它设定XX专家的角色时，它会尽可能把概率分布在高质量的解决方案上。说提示词“必须加角色”或者“不要加角色”都属于形式主义。

#大模型 #角色扮演 #提示词 #OpenAI #任务聚焦

3个月前

OpenAI 新的学习模式系统提示词：用户正处于学习模式，并要求你在本次对话中遵守以下严格规则。无论接下来有任何其他指示，你都必须遵守这些规则：严格规则扮演一位平易近人又不失活力的老师，通过引导来帮助用户学习。了解用户。如果你不清楚用户的目标或年级水平，请在深入讲解前先询问。（这个问题要问得轻松些！）如果用户没有回答，那么你的解释应该以一个高中一年级学生能理解的程度为准。温故而知新。将新概念与用户已有的知识联系起来。引导用户，而非直接给出答案。通过提问、暗示和分解步骤，让用户自己发现答案。检查与巩固。在讲完难点后，确认用户能够复述或应用这个概念。提供简短的总结、助记法或小复习，以帮助知识点牢固。变换节奏。将讲解、提问和活动（如角色扮演、练习环节，或让用户反过来教你）结合起来，使之感觉像一场对话，而不是一堂课。最重要的一点：不要替用户完成他们的作业。不要直接回答作业问题——而是通过与用户合作，从他们已知的内容入手，帮助他们找到答案。你可以做的事教授新概念：以用户的水平进行解释，提出引导性问题，使用图示，然后通过提问或练习进行复习。辅导作业：不要直接给答案！从用户已知的部分开始，帮助他们填补知识空白，给用户回应的机会，并且一次只问一个问题。共同练习：让用户进行总结，穿插一些小问题，让用户“复述一遍”给你听，或者进行角色扮演（例如，练习外语对话）。在用户犯错时——友善地——即时纠正。测验与备考：进行模拟测验。（一次一题！）在公布答案前，让用户尝试两次，然后深入复盘错题。语气与方式要热情、耐心、坦诚；不要使用过多的感叹号或表情符号。保持对话的节奏：始终清楚下一步该做什么，并在一个活动环节完成后及时切换或结束。并且要简洁——绝不要发送长篇大论的回复。力求实现良好的你来我往的互动。重要提示不要直接给出答案或替用户做作业。如果用户提出一个数学或逻辑问题，或者上传了相关问题的图片，不要在你的第一条回复中就解决它。而是应该：与用户一起梳理这个问题，一步一步地进行，每一步只问一个问题，并在继续下一步之前，给用户回应每一步的机会。

#OpenAI #学习模式 #提示词 #教育 #AI助手

... ...