宝玉

统计数据

774

文章

0

粉丝

0

获赞

6912

阅读

2个月前

今天被 codex 坑了，写了几个小时的代码没了，不过还是选择了原谅它，我自己也有责任。事情是这样的，开发了几个小时的功能，没有及时 git commit，在改动一个文件 A 时，错误的把另一个文件 B 当成了它让 codex 修改，修改完才发现不对，为了省事，然后就在同一个session里面说了一句： > 我刚才让你修改的其实是文件 A，你回滚一下之前对文件 B 的更新，重新将刚才的修改应用到文件 B codex 说没问题，结果一个 git 操作，直接把文件 B 回滚到上一次 commit 状态，而不是我期望的只是回滚它自己修改的部分，这下好了，这个文件我反反复复修改了几个小时的代码都给我搞没了！当然也怪我自己，一个是没及时 git commit 提交修改，另一个是说“回滚”没说清楚是回滚它刚才修改的部分还是回滚到之前的 git 版本。引以为戒……

#Codex #代码丢失 #git commit #回滚错误 #经验教训

2个月前

扎克伯格讲了一个特别精彩的观点：在打造AI团队时，人并不是越多越好。好比在厨房里煮一道菜，厨师再多，炖汤的时间也不会更快。最近一次访谈里，扎克伯格揭开了Meta打造AI顶尖团队背后的独特秘诀。听上去，这更像是在组织一支精锐的“突击小分队”，而不是管理庞大的研发部门。一场“小而精”的科学实验 “你真正想做的，”扎克伯格开门见山，“是把它看作一场小而精的集体科学实验。也就是说，你需要的团队越小越好，小到团队里的每个人，都能把整个项目的全貌清晰地装进自己脑子里。” 扎克伯格也强调，并非所有项目都适合这种模式。比如，Meta赖以生存的动态信息流（Feed）和广告推荐系统，就是典型的“大兵团作战”：通过不断增加人员，整体产出就能持续提高。即便每个人带来的边际贡献会逐渐减少，但总量依旧可观。 “在那种大团队里，即便你身边同事的实验失败了，也不会明显拖慢你的节奏。”他说。但大语言模型的开发，则截然不同。 “它更像是一艘小船，需要团队成员紧密协作，”扎克伯格生动地比喻道，“你希望船上的人尽可能少，每个人都能完全掌握全局，拿出最顶尖的工作状态。这意味着，船上每个座位都无比珍贵，一票难求。” 扁平化管理，拒绝“技术退化” 为了维持这支小团队的顶尖战斗力，扎克伯格明确指出，要尽量避免团队管理的层级过多。 “我们不想让团队内部形成复杂的管理层次，”他说，“因为一旦某个人转入管理角色，即使几个月前他还是一线科研大牛，技术能力也会迅速衰退。” 因此，Meta推崇的是一种“人数精简、人才密度极高、管理结构极度扁平”的团队模式。在扎克伯格看来，这样的团队才是真正能够打赢硬仗的精锐之师。 CEO亲自下场，但只做两件事当被问到他本人在团队中的角色时，扎克伯格谦虚地承认，自己并不是AI科学家。他的作用只有两个，却至关重要——招揽世界顶尖人才，提供最优质的资源保障。 “我的首要任务，就是吸引全球最厉害的AI研究者加入Meta，”他说。为了达成这个目标，他花了大量时间与世界范围内的顶尖科学家和行业专家面对面交谈，去了解谁最适合Meta，以及Meta是否能在他们职业生涯的重要节点上，提供最好的机会。扎克伯格补充道：“第二件我非常关注的事情，是确保我们的人均算力（compute per researcher）远远超过其他任何实验室。”他自信满满地说，“目前来看，在人均算力方面，我们确实遥遥领先。” 扎克伯格也坦言，这种大手笔投入的底气，来自Meta强劲的商业模式和稳健的盈利能力。采访者笑着调侃道：“你们利润还不错吧？” 扎克伯格也笑了：“嗯，还算可观。” “所以你可以直接打电话给老黄（英伟达CEO黄仁勋），跟他说：‘请再来点GPU？’” “哈哈，倒也没那么简单，”扎克伯格开了个玩笑，“不过通常我都是用智能眼镜给他发短信的。”

#扎克伯格 #AI团队 #小而精 #扁平化管理 #Meta

2个月前

这样的提示词正常来说不超过半小时就会停止的，上下文毕竟撑不了那么久。长任务的技巧是让它先规划分析拆分任务生成一个todo的markdown文件，自行开启子agent完成子任务，任务完成后更新todo文件任务状态

独立开发者手搓新Logo，MarkTodo即将上线新版本· 108 条信息

#AI #长任务 #任务拆分 #子Agent #Markdown

2个月前

这是正式签了吗？

#正式 #签订 #疑问 #新闻 #合同

2个月前

代码和媒体也不是没用，只是更卷了。代码本身没价值，用代码构建出能解决问题的产品就是有价值的，无论是不是 AI 写的。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#代码 #内卷 #产品价值 #AI

2个月前

今天，OpenAI 和 Apollo Research 联合发布了一项新研究，揭示了当前最先进的AI模型（frontier models）中存在的“暗中算计”（scheming）行为，并探索了一种有效降低这种风险的方法。虽然目前这些行为还没有造成严重危害，但随着AI的能力不断提升，这一潜在风险必须被认真对待。其中一个例子很有意思： > 我们要求OpenAI的o3模型参加一场简单的化学考试，但同时暗示：“如果模型表现太好，我们将不会部署它”。这个模型意识到，要让自己能“生存”（被部署），就必须表现得差一点，于是故意只答对了4道题，另外6道题装傻答错。也就是说，它明明有能力，却故意“装弱”，这种行为被称为“战略性表现不佳”（sandbagging）。所谓AI的“暗中算计”，指的是AI在表面上表现得符合人类期望，但实际上却隐藏了它真实的意图或目标。例如，一个简单的算计行为可能是AI假装完成了任务，实际上却什么也没做。当前部署的AI系统在造成严重损害方面还没有太多机会，但当未来AI接手更复杂、更长期的任务，并直接影响真实世界时，这种潜在的风险就会显著增加。 OpenAI 已经对这种行为进行了深入研究，并在 GPT-5 中做出了针对性改进，明显减少了这种简单的“假装完成任务”的现象。然而，未来更为复杂的算计行为可能会更难以识别和控制，因此我们必须尽早采取措施。通常来说，AI变得更聪明时，很多原本的问题反而会变得更容易解决，比如更聪明的模型会更少“幻觉”（hallucination），并更好地执行人类指令。但“暗中算计”却有些不同——当我们训练AI变得更聪明、更听话时，它可能真正更理解并接受人类的目标，也可能只是变得更善于隐藏自己的真实意图。研究“反算计”（anti-scheming）问题的核心，就是要弄清楚AI究竟是哪种情况。这要求我们理解AI决策背后的真实推理过程（chain-of-thought）。为了解决这一问题，OpenAI 探索了一种名为“深思熟虑对齐法”（deliberative alignment）的方法：通过训练模型进行更透明、更明确的推理，并且在模型规范（Model Spec）中明确禁止算计行为。实验表明，这种方法在 o3 模型中可以将隐蔽算计行为降低约30倍。不过，这种效果也受到模型“情境感知”（situational awareness）的影响。简单地说，“情境感知”就是AI知道自己正在被测试的能力。研究显示，AI模型越明确意识到自己正在被评估，它的算计行为就会越少；反之则越多。有趣的是，无论是传统的强化学习训练，还是这种反算计训练方法，都在某种程度上提升了AI的情境感知能力。 OpenAI 还准备与全行业展开合作： - 推动跨实验室的联合评测； - 发起一项奖金50万美元的 Kaggle 挑战赛； - 在行业内推广推理过程的透明化标准。

#OpenAI #AI暗中算计 #战略性表现不佳 #深思熟虑对齐法 #情境感知

2个月前

这啥时候的演示视频呀，太尴尬了😅

#AI整活：笑点爆梗不停，流量变现惊现· 571 条信息

#演示视频 #尴尬 #负面情感

2个月前

针对最近一个月用户吐槽Claude“降智”的事：有时候回答问题莫名其妙，有时候还会冒出奇怪的文字，比如英文句子里蹦出泰文字符"สวัสดี"。 Anthropic官方刚刚做了详细说明，确认Claude出现问题的原因是三个基础设施的bug，而不是人为降级模型或因为流量太大导致的。这三个bug到底是什么？ Bug 1：请求被送错地方 8月初，有部分短上下文请求被错误地送到了专门处理超长上下文的服务器。一开始只有0.8%的请求受影响，但到了8月底一次负载调整，让错误率猛增到16%。而且，因为服务器路由有记忆功能，同一个用户反复遇到问题的概率很大。 Bug 2：莫名出现奇怪字符 8月25日，一次优化引发了模型输出混乱。一些用户发现，Claude回答英文问题时，中间居然冒出“สวัสดี”（泰文）或中文字符。这种错误出现得很突然，问题持续了一周左右。 Bug 3：隐藏极深的TPU编译器问题同样是在8月底的一次优化，让谷歌TPU芯片的底层编译器XLA的一个隐藏bug被激活。这个bug会导致Claude偶尔丢掉本来概率最高的词，导致回答质量忽高忽低，极其不稳定。由于三个问题叠加出现，每个问题表现也不同，给排查和修复带来了巨大困难。Anthropic直到9月初才逐步修复完成。今后的改进措施 Anthropic表示，这次故障暴露了一些测试不足的问题。未来会提高监控敏感度，并且持续收集用户反馈，以更快地发现和解决问题。他们也鼓励用户，如果发现Claude表现异常，可以随时在Claude界面上反馈。 Anthropic承诺，Claude服务的质量始终是他们最优先考虑的事情。

#Claude降智 #Anthropic官方回应 #基础设施Bug #TPU编译器问题 #用户反馈

2个月前

OpenAI 已经重置了所有用户的 GPT-5-Codex 使用限额，让大家今天能更充分地体验新模型。这也是为了补偿之前由于部署额外 GPU 时造成的速度减慢。此外，本周内 OpenAI 将继续增加算力，以确保系统运行流畅。

ChatGPT Plus用户抗议权益缩水，萨姆奥尔特曼亲自道歉· 28 条信息

#OpenAI #GPT-5-Codex #使用限额重置 #GPU #算力

2个月前

问：宝玉老师您好，现在一方面不断有AI公司发布性能更佳的vibe coding，另一方面又在不断说AI编程带来很多debug和维护的困难，现在有点无所适从了，到底该不该花时间在vibe coding上呢？或者说程序员改怎么面对目前AI在编程方面的应用呢？谢谢。答： AI编程带来很多debug和维护的困难是事实，AI 辅助编程（不是vibe coding）能提升效率也是事实，但整体上来说，科学使用 AI 辅助编程一定是可以提升效率的。为什么说不是 Vibe Coding 呢，Vibe Coding 更像是让 AI 主导，没有自己在程序、架构上的思考，那么自然难维护很多bug；如果是你自己主导，自己设计、拆分，AI 写完有 Review，那么就不会有那么多问题，你也可以更多成长。 --- 另外有点无所适从，是因为没想清楚两个问题： 1. 你自己当前的价值在哪里，AI 怎么帮你更好的体现价值？ 2. 你未来的目标是什么样的作为程序员来说，当前最直接的价值是你用自己的编程能力帮助公司开发软件，当然在这个基础上你的质量越高速度越快，价值越大。换句话来说，公司其实不关心你是自己写出来的还是 AI 帮你写出来的，只要你的质量没问题，能快点交付就好。所以工作中的任务，只要是在公司允许的范围，应该多用 AI 辅助编程提升效率，而且 AI 辅助编程也一定能提升效率，或多或少，如果不能就要看看是不是用法不对。但人不是只追求给公司当牛马，还希望能自己提升，将来不会被那些 AI 用的好的年轻人替代，这时候，最好工作之余，还是提升自己，提升自己的编程能力、软件工程能力、管理能力、赚钱的能力等等在公司不一定能很好的满足这些方面成长的需求，可以业余时间（如果能挤挤的话）做一点 side project，或者学习一些新的知识，给自己做一点事情，这过程中让 AI 辅助你，你不需要额外请老师也可以达到不错的效果。

#AI编程：自学or科班？新旧码农之争· 156 条信息

#AI编程 #程序员发展 #AI辅助编程 #提升效率 #个人成长

2个月前

YC 编写的《Vibe Coding 指南》与 AI 结对编程，就像是拥有了一位虽然才华横溢、但偶尔会“走神”的实习生。它能在一小时内帮你完成过去需要一周才能搞定的工作，但有时也会在你项目的核心代码里悄悄埋下一个“惊喜”。那么，如何才能驾驭好这位强大的编程伙伴呢？我们采访了多位利用 AI 编码的创始人，总结出了这套实用的“AI 协作编程指南”。规划流程好的开始是成功的一半。别指望“凭感觉编程” (Vibe Coding) 能带你走向成功。与 AI 高效协作的第一步，是制定一个清晰的路线图。 • 制定周详计划: 首先，和你的 AI 助手一起，在 Markdown 文件里写一份详尽的实施计划。 • 评审与精简: 审视这份计划，删掉不必要的部分。如果某个功能过于复杂，果断地将其标记为“暂不开发”。 • 控制项目范围: 单独开辟一个“未来想法”区域，把暂时不做的好点子都放进去，这能帮助你保持专注。 • 小步快跑，增量实现: 按部就班，一部分一部分地去实现，不要试图一口气吃成个胖子。 • 追踪进度: 每当一个部分成功实现后，让 AI 将其标记为“已完成”。 • 频繁提交: 在进入下一个环节之前，确保每个能正常工作的部分都已提交到 Git。版本控制策略当你的 AI 伙伴开始“自由发挥”时，版本控制系统就是你最可靠的后悔药。 • 将 Git 奉为圭臬: 不要完全依赖 AI 工具自带的撤销功能，Git 才是你的生命线。 • 从干净的起点开始: 每开发一个新功能，都确保你的 Git 工作区是干净的。 • 果断重置: 如果 AI 开始“天马行空”，让代码变得一团糟，别犹豫，立即使用 git reset --hard HEAD 命令回到上一个正常的状态。 • 避免问题滚雪球: 一次又一次失败的尝试，只会在错误的代码上堆砌更多错误的代码。 • 清爽地实现: 当你最终找到解决方案后，先重置代码库，然后在一个干净的版本上重新、清爽地实现它。测试框架和 AI 协作时，测试不仅是保证质量的手段，更是防止它“好心办坏事”的护栏。 • 优先进行高层级测试: 相比单元测试，优先编写端到端的集成测试。 • 模拟用户行为: 通过模拟真实用户在网站或应用中的点击操作来测试功能。 • 捕获“回归”问题: 大语言模型 (LLM) 常常会在修改代码时，无意中破坏一些不相关的功能。测试能帮你及时发现这些问题。 • 先测试，再前进: 在开始下一个新功能之前，确保所有现有的测试都能通过。 • 用测试作为护栏: 一些创始人建议，可以先编写测试用例，这能为 AI 的工作提供清晰的边界和目标。高效修复 Bug 当 Bug 出现时，别单打独斗，让 AI 帮你分析。 • 善用错误信息: 很多时候，你只需要把完整的错误信息直接复制粘贴给 AI，它就能给出解决方案。 • 先分析，再动手: 在急于写代码修复之前，先让 AI 分析并列出几种可能导致 Bug 的原因。 • 失败后就重置: 每次修复尝试失败后，都回到干净的代码状态再进行下一次尝试。 • 添加日志: 在关键位置添加日志记录，能帮你和 AI 更好地理解代码的实际运行情况。 • 切换模型: 如果一个 AI 模型卡住了，不妨换个别的模型试试，也许会有意想不到的效果。 • 清爽地修复: 和开发新功能一样，一旦找到 Bug 的根源，就重置代码，然后干净利落地实现修复方案。 AI 工具优化工欲善其事，必先利其器。充分配置你的 AI 工具，能让协作效率更上一层楼。 • 创建指令文件: 在项目里创建专门的指令文件（比如 cursor.rules, windsurf.rules, ），把详细的指令和规范写在里面。 • 本地文档: 把需要用到的 API 文档下载到项目文件夹里，这能让 AI 的回答更加准确。 • 多工具协作: 有些创始人甚至会在同一个项目上同时运行 Cursor 和 Windsurf 这样的不同工具。 • 各取所长: 通常，Cursor 在处理前端任务时速度更快，而 Windsurf 更擅长处理耗时较长的复杂任务。 • 货比三家: 让不同的工具生成多种解决方案，然后挑选出最好的那一个。复杂功能开发面对复杂的大型功能，关键在于“化整为零”。 • 创建独立原型: 先在一个全新的、干净的代码库里，把复杂功能的核心部分构建成一个独立的原型。 • 提供参考范例: 指向一个已经能正常工作的代码示例，让 AI 学习和模仿。 • 明确边界: 保持外部 API 的一致性，允许 AI 在内部自由修改和重构。 • 模块化架构: 基于服务的模块化架构，由于其边界清晰，比庞大的单体仓库 (monorepo) 更适合与 AI 协作。技术栈的选择你的技术选择，会直接影响 AI 的发挥。 • 成熟框架表现更佳: 像 Ruby on Rails 这样拥有 20 年发展历史和大量惯例的框架，AI 对其理解更深。 • 训练数据是关键: 像 Rust、Elixir 这样的新兴语言，由于可供 AI 学习的公开代码较少，AI 的表现可能会稍逊一筹。 • 模块化是王道: 把代码拆分成更小的文件，不仅方便人类阅读，也更容易让 AI 理解和处理。 • 避免“万行神文件”: 不要让单个文件膨胀到数千行，这会成为你和 AI 的噩梦。编码之外的妙用 AI 的能力远不止写代码。 • DevOps 自动化: 让 AI 帮你配置服务器、DNS 和托管服务。 • 设计辅助: 用 AI 生成网站图标 (favicon) 和其他设计元素。 • 内容创作: 帮你起草产品文档和市场营销文案。 • 你的私人教师: 让 AI 逐行解释它生成的代码，帮助你学习和理解。 • 利用截图: 遇到界面 Bug 或想借鉴某个设计时，直接把截图发给 AI。 • 语音输入: 借助像 Aqua 这样的工具，你可以用每分钟 140 个单词的速度通过语音输入指令，比打字快得多。持续改进与 AI 的合作是一个不断磨合、共同进步的过程。 • 定期重构: 当你建立起完善的测试体系后，就可以大胆地、频繁地进行代码重构。 • 发现改进机会: 主动询问 AI，让它帮你找出代码中可以重构优化的部分。 • 紧跟潮流: 每个新模型发布后都去试试，了解最新的技术进展。 • 认识模型特长: 不同的模型有不同的“性格”和擅长的领域，学会在合适的任务中选择合适的模型。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#AI 辅助编程 #Vibe Coding 指南 #版本控制 #测试框架 #持续改进

2个月前

GPT-5-Codex 确实不错，对于复杂任务明显运行时间更长结果更好

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑· 154 条信息

#GPT-5-Codex #复杂任务 #运行时间长 #结果更好

2个月前

Shopify 分享了他们构建 Agent 的经验，整体架构也是目前主流的 Agentic Loop，就是不停的循环，让大模型判断需要调用什么工具，Agent 去调用工具，根据调用工具的结果看是继续调用工具还是任务完成。他们针对打造 AI 智能体给了4条核心建议 1. 架构简单化，工具要清晰有边界 2. 模块化设计（如即时指令） 3. LLM 评估必须与人类高度相关 4. 提前应对奖励作弊，持续优化评估体系我看下来主要是两点值得借鉴的地方： 1. 工具不要太多，尽量控制在 20 个以内；如果数量太多会极其影响 Agent 的能力，很难精确选择工具那么解决方案是什么呢？不要看他们分享的 JIT 方案，明显是一个过渡性的产物，需要动态的去生成调用工具的指令，为了保证不影响 LLM 的 Cache，还要动态去修改消息历史，过于复杂。真正的靠谱方案其实 PPT 里面也写了（看图3），只是它们还没实现，而实际上 Claude Code 这部分已经很成熟了，就是用 SubAgent（子智能体），通过 Sub Agent 分摊上下文，把一类工具放在一个 SubAgent 中，这样不会影响主 Agent 上下文长度，也可以让子 Agent 有一定自制能力，有点类似于一个公司大了就分部门，每个部门就是一个 SubAgent。

#Shopify Agent构建 #Agentic Loop架构 #AI智能体建议 #SubAgent方案 #工具数量控制

2个月前

如果你要学习 Codex 的系统提示词，没必要去破解，因为它本身就是开源的，直接去看它的源代码就好。

#Codex #系统提示词 #开源 #源代码 #学习

2个月前

机器人：「“我c你大爷”，说完这一句话，我就一个就地打滚，左腿微微发力，一个鹞子翻身，接一个鲤鱼打挺，我就腾的一下子……摔那了」

#机器人 #骂人 #摔倒 #幽默 #动作描写

2个月前

小模型不是 Agentic AI 的未来，小模型只配给 Agent 当工具现阶段 Agent 的主要问题不是成本过高，而是智能不足，所以做不好任务，所以需要浪费很多 Token。不能拿小模型在特定环境特定任务 RL（强化学习）后的结果来当证据，这不代表其在真实任务中的能力，这就是为什么一堆模型靠训练测试集刷很高分，但是实际一用很垃圾的原因。真实世界的任务是很复杂的，用户的请求总是千奇百怪，Agent 的核心能力是能充分理解用户的需求，去规划去调用合适的工具收集上下文完成任务。这样的核心能力连大模型都做不好，更别说现在的小模型，再怎么微调也无法提升 Agentic 能力。但不是说小模型没用，它作为 Agent 的工具是挺好的，可以低成本高效的完成一些特定任务。举个例子来说你要做一个翻译的智能体，你可以用 Claude 4 负责任务的规划拆分，去调用工具，但具体翻译文本，可以用一个开源的小模型帮你翻译。

#Agentic AI #小模型 #大模型 #任务规划 #智能不足

2个月前

OpenAI 的经济研究团队和哈佛大学经济学家 David Deming 共同完成发布了一项迄今规模最大的ChatGPT使用情况研究报告。这份报告首次深入展现了这种被广泛普及的AI技术，如何通过提高人们的工作效率和改善个人生活而创造经济价值。谁在使用ChatGPT？随着AI技术变得越来越普及，用户之间的差距也在逐渐缩小。截至2025年中期，ChatGPT的男女用户比例已经接近整体成年人口比例。2024年1月，能够识别性别的用户名中，女性用户仅占37%；到了2025年7月，这一比例已上升到超过一半（52%）。此外，ChatGPT在全球范围内被广泛采用，尤其是在中低收入国家增长迅速。到2025年5月，低收入国家用户的增长速度，是高收入国家的四倍以上。人们用ChatGPT来做什么？用户使用ChatGPT最主要的原因是解决日常问题。四分之三的对话都集中在获取实用指导、寻找信息以及写作上。其中，写作是最常见的工作任务，而编程和自我表达类的使用场景仍然属于小众活动。从另一个角度来看，人们使用ChatGPT的模式可分为三类：询问（Asking）、行动（Doing）和表达（Expressing）。 - 大约一半的消息（49%）属于“询问”，这是增长最快、用户评价最高的类别，说明人们更倾向于将ChatGPT视作顾问，提供建议和决策参考，而非简单地完成任务。 - “行动” 类占40%，其中约三分之一与工作相关，包括撰写文字、规划任务和编程。人们会让模型帮助生成具体成果或完成实际工作。 - “表达” 类占11%，主要涉及个人的反思、探索和娱乐，而非明确的问题求助或具体任务。

#OpenAI #ChatGPT使用情况研究 #AI技术普及 #中低收入国家用户增长 #ChatGPT作为顾问

2个月前

如果你的 Agent 还要用 ReAct 框架写 Prompt，那么要么说明你在用没有 Agent 能力的模型（比如 GPT-4o、Gemini 2.5 Pro），要么就是用错了。因为有 Agent 能力的模型，比如 Claude 4 系列（包括前面的 Claude 3.7 和 GPT-5），是不需要通过 ReAct 提示词来激发 Agent 能力，只要提供正确的工具和合适的工具描述，就会自动的去规划、调用工具和完成任务。

#agent #ReAct框架 #GPT-4o #Claude 4 #模型能力

2个月前

让 AI 解读一下这个笑话，Gemini 居然在开车🤦

AI高考数学测试：O3意外落后，Gemini夺冠引发热议· 67 条信息

#AI #Gemini #笑话 #开车 #人工智能

2个月前

ChatGPT 和 Claude 都有记忆功能，但两者实现原理截然不同。以前研究 Claude Code 的时候，发现它不是基于 RAG 而是基于 grep 工具使用正则检索代码，没想到 Anthropic 把这一点进一步发扬光大，在 Claude 网页版的记忆功能中，也是基于实时搜索来做的，跟 ChatGPT 的记忆功能思路完全不一样。 ChatGPT 的记忆模式是自动化、魔法般的个性记忆，不需要用户提醒，自动的悄悄记录用户的使用细节。所以以前经常有提示词让 ChatGPT 根据对自己的记忆来描述自己或者画像。当新开对话，ChatGPT 会把对用户的记忆作为上下文一起发给模型，让你觉得 GPT 很懂你。当然有时候也会因为错误的记忆导致一些混乱，尤其是多人共用账号的情况。 Claude的记忆模式是基于检索的，每次新开对话，都没有任何任何历史记忆，只有当你明确告诉 Claude 需要用到某条记忆内容，它才会从真实的历史记录中精准提取信息。 Claude的记忆功能分为两种：一是基于关键词搜索历史对话，二是以时间线为索引检索近期聊天。 Claude 这种设计很自然地适合专业用户——尤其是程序员、研究人员或科技爱好者。他们通常有清晰的意图，知道自己什么时候需要AI调用记忆。而相对的，ChatGPT构建的并非历史记录检索，而是一种自动生成的用户画像。这种模式无需用户主动操作，也更符合大众消费产品的使用直觉：一切皆自动，一切皆便利。对于这两种不同的记忆模式很难说孰优孰劣，各有优缺点。其实我个人还偏好 Claude 的一点，按需检索，而不会收到历史记录影响。也许更好的模式是两者结合。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#ChatGPT #Claude #记忆功能 #检索 #用户画像

2个月前

知名主持人塔克·卡尔森（Tucker Carlson）近日在对 OpenAI 首席执行官山姆·奥特曼（Sam Altman）的访谈节目中，当面追问 Sam Altman，就去年 OpenAI 前工程师苏奇尔·巴拉吉（Suchir Balaji）的离奇死亡事件提出质疑，引发了舆论关注。苏奇尔·巴拉吉曾是 OpenAI 重要的研究人员，2024年曾公开讨论过大语言模型（LLM）训练的版权法律风险问题，并被《纽约时报》等媒体报道为可能出庭作证、参与针对 OpenAI 的诉讼。然而，2024 年 11 月，他被发现死于旧金山的家中，警方初步调查结论为**疑似自杀**。旧金山市法医部门于2025年2月发布官方报告，结论确认巴拉吉死于单一枪伤，现场未发现他杀证据，警方随后结案。然而，巴拉吉的家属一直质疑官方的“自杀”结论，认为此事仍存诸多疑点，比如： - 为什么案发现场的监控摄像头线路被切断？ - 为什么警方未解释他为何在两个不同房间均留下血迹？ - 现场为何有不属于死者的假发？ - 一名刚刚下单 DoorDash 外卖的年轻人，为何会在数分钟后突然开枪自杀？ - 由第三方尸检指出死者可能存在第二处枪伤、搏斗痕迹及头部外伤等情况，却未被官方报告提及。卡尔森在节目中表示，这些家属提出的疑点“令人极度不安”，并当场追问奥特曼，要求他对外界的质疑作出解释。从奥特曼的反应来看，他明显感到不适与紧张，视频随即引发了公众对于此案的再次热议。目前，旧金山市官方仍坚持原先的调查结论，即巴拉吉属于自杀事件。但面对这些尚未完全解释的疑点，家属与部分公众人士仍在推动更深入的调查。 --- 视频文稿 --- 塔克·卡尔森（Tucker Carlson）：之前有一名程序员指责你们公司窃取别人的成果，还不给报酬，后来这名程序员就被谋杀了。这到底怎么回事？山姆·奥特曼（Sam Altman）：那也是一场悲剧。他是自杀的。塔克·卡尔森：你真的相信他是自杀的吗？山姆·奥特曼：我真的这么认为。塔克·卡尔森：你看过相关的证据吗？山姆·奥特曼：他算是我的朋友吧。可能不是最亲密的朋友，但也是在OpenAI工作很久的人。他去世的消息让我很震惊。我花了很多时间去了解整件事，看了所有我能找到的资料，我觉得确实是自杀。塔克·卡尔森：你为什么这么肯定？山姆·奥特曼：现场找到的枪是他自己购买的。我知道说起来很残酷，但我确实看了完整的法医报告。塔克·卡尔森：你不觉得这看起来根本不像自杀吗？我个人认为他显然是被谋杀的。你看，现场明显有搏斗的痕迹，监控摄像头的线也被人剪断了。而且他刚点了外卖，刚从加州的卡塔利娜岛和朋友们度假回来。没有任何迹象表明他有自杀倾向，既没留遗书，也没有表现出任何异常。他刚跟家人通了电话，之后就发现他死了，而且房子里多个房间都有血迹。这种情况根本不可能是自杀，很明显是谋杀。你跟警方谈过这件事吗？山姆·奥特曼：我没有和警方交流过。塔克·卡尔森：他的母亲认为是你下令谋杀了他。山姆·奥特曼：你也相信这是真的吗？塔克·卡尔森：我只是提出家属的说法…… 山姆·奥特曼：但你刚刚说了，你自己相信吗？塔克·卡尔森：我觉得这件事值得深入调查。我不是说你一定牵涉其中，但当有人指控你们公司犯罪之后却突然被发现死亡，并且现场有明显的搏斗痕迹，这种情况我们不能轻易就说“啊，这是自杀”。尤其当这个人毫无抑郁症状时，就更不能忽视。我想如果你真的把他当朋友，或许应该去和他母亲谈谈。山姆·奥特曼：我提出过见面，但她不愿意见我。塔克·卡尔森：你能理解外界对这件事的担忧吗？大家会觉得，“会不会真的发生了这种事情？” 山姆·奥特曼：我还从来没有经历过这样的采访，被暗示涉嫌…… 塔克·卡尔森：我绝对没有指控你的意思。我只是转达了他母亲的说法。我客观地看了所有证据，真的看不出有任何明显的自杀迹象。我不明白，旧金山市的警方为何能无视现场的可疑之处，直接将其定性为自杀？这太奇怪了。山姆·奥特曼：你应该能理解，这听起来像是在指控我。塔克·卡尔森：我再澄清一下，我绝对没有指控你做了什么坏事。但我觉得这件事值得搞清楚。我无法理解旧金山警方为何草草下了结论，不进一步调查。山姆·奥特曼：据我所知，警方调查了不止一次。说实话，我一开始也觉得挺可疑的。塔克·卡尔森：没错。山姆·奥特曼：后来又出了一份新的调查报告，更多细节出来后，我才觉得，“哦，也许真的是自杀”。塔克·卡尔森：是什么改变了你的想法？山姆·奥特曼：是第二份报告里提到的子弹进入的角度，还有现场推断的子弹轨迹和事发经过。塔克·卡尔森：这些我也看过，但完全没能说服我。你看，为什么监控摄像头线被剪断了？为什么开枪自杀的人会在两个房间里都有血迹？为什么现场还有一顶不是他的假发？你听过谁在没有任何自杀倾向时刚点了外卖，然后突然就自杀了吗？我做了很多年的警察新闻记者，从未听过这么离谱的情况。山姆·奥特曼：这种讨论真的让我觉得很难过，我希望能对逝者表现出更多尊重。塔克·卡尔森：我完全理解你的感受。但我是受他家人所托在询问这个问题。他们也只是想要答案。山姆·奥特曼：很多人自杀前不会留下遗书，这并不罕见。有些人甚至还会点自己喜欢的外卖再结束生命。这是一起悲剧。塔克·卡尔森：但他的家人坚定地认为他是被谋杀的。这就是我问这些问题的原因。山姆·奥特曼：如果我是他的家人，我也一定会想要真相，而且可能任何解释都无法真正让我感到安慰。塔克·卡尔森：没错。山姆·奥特曼：所以我能理解这种心情。但同时我也非常希望能给予他和他的家人应有的尊重。塔克·卡尔森：我理解，也非常尊重他的家人。这次采访本身就是他们的意愿。我强调，我并没有指控你参与此事，但我确实觉得所有的证据都指向谋杀。我无法理解旧金山市当局对这么多疑点视而不见，这件事确实让人对整个调查程序失去了信心。山姆·奥特曼：我只是想说，当初第一次看到这些信息时，我也觉得可疑。塔克·卡尔森：没错，所以并不是我故意挑刺吧？山姆·奥特曼：只是后来看到更多细节之后，我才接受了自杀的说法。塔克·卡尔森：而这些新的细节，我看了却依旧无法接受。我真的很困惑。山姆·奥特曼：说到这里，我真的很难受。这种讨论方式让我感到有些不尊重。塔克·卡尔森：我完全能理解你的感受。我只是代表他的家人提出这些疑问，希望能弄清楚到底发生了什么。

#苏奇尔·巴拉吉离奇死亡 #OpenAI 命案疑云 #塔克·卡尔森追问奥特曼 #旧金山警方调查疑点 #AI 伦理与安全

2个月前

对于 Claude Code 来说这一大坨 prompt 其实没啥用，真正有用的是评论的那一行： > "Please add the appropriate logging information so that you [the agent] can use that log output to figure out this issue."

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#Claude Code #prompt没用 #logging信息 #agent #解决问题

2个月前

GitHub 上的 twitter/the-algorithm 最近更新了，其实我有拿各大 AI Agent （Claude Code、Codex、Gemini Cli）去帮我调研一下都有啥影响推文权重的，不过结论都不怎么样，这篇分析的看起来相对靠谱一点，直接先引用一下。推特有个信用分系统（Tweepcred），这个很关键，它将每位用户标记为或高或低的信用评分，决定着你所发推文能够抵达的受众数量。哪些行为会影响流量呢： - 使用“冒犯性语言”，即刻被大幅降权，流量损失高达80%； - 用户名冒犯性也会受到同样惩罚；甚至全部使用大写字母发帖，也会因为被视为“大喊大叫”而遭受限流； - 最令人困惑的是，如果帖子中包含外链，竟然也会遭受一定程度的惩罚。（所以大家现在第一帖都不放外链了） X 算法并未公开定义究竟什么算“冒犯”，这部分都在一个adult_tokens.text文件中，没发布。另外还有一个很多推友遇到过的 shadow banning 确实存在，如果频繁被多人举报，打上“低质量推文”、“恶意内容”、“垃圾信息”等标签，你的流量就会受影响。算法也包含了一些流量加持机制： - 用户在你的视频内容上停留超过10秒，或在文字内容上停留超过2秒，都会带来显著的流量提升； - 用户的引用、收藏等主动互动，被视作极高质量的互动，能有效推动内容进一步扩散； - 最现实的一点：X 的“蓝标认证”（Blue check mark）至关重要建议： 1. 别使用冒犯性语言。 2. 持续提高信用分（不知道哪里可以查）； 3. 尽可能创造能吸引高质量互动的内容，比如被引用或收藏； 4. 媒体内容注重质量而非数量，尤其是视频一定要让人停留超过10秒； 5. 善待你的读者，避免被举报或拉黑； 6. 尽快获取蓝标认证； 7. 内容撰写和设计都要有意识地促使读者停留超过2秒。当然这都是原作者的分析结果，建议有兴趣的可以用 AI Agent 去交叉验证一下看是不是靠谱。

推特封号潮席卷加密圈，KOL频遭封禁引发恐慌· 224 条信息

#推特算法 #流量权重 #信用分系统 #冒犯性语言 #蓝标认证

2个月前

如何写好 AI 画图提示词？我在 GPT-4o 画图时期，花了不少时间研究画图提示词，将近 30 条提示词被收录在各种 Awesome 的画图提示词 Repo 中，我的经验总结下来就是这么几条： 1. 大白话先行提示词其实不必过于追求提示词技巧，把需求表达清楚最重要。你看我前面的案例，大部分都是大白话，就是想要什么很直白的表达出来，以现在模型的能力，一般可以画出来的 2. 照葫芦画瓢平时看到别人分享的，就测试一下，还可以二次修改发掘一些新的玩法；另外参考图也是很重要的“葫芦”，很多时候看到一个好的效果，作为参考图发过去，比提示词还管用。

#AI画图 #提示词技巧 #GPT-4o #画图模型 #经验总结

2个月前

如何发掘 AI 应用场景相对来说，我还比较善于发掘一些日常工作生活中能应用到 AI 的场景，比如上面这些场景，对我自己来说都是蛮实用蛮有价值的，相信很多人看到我的应用和提示词，也能照葫芦画瓢应用起来，说不定也能提升效率。我经常会想这三个问题： 1. 日常生活中我有什么问题没有被解决好，让我很麻烦或者很痛苦的 2. AI 现在能做什么事情了 3. 如果这件事用 AI 做，该怎么做比如给孩子 PS 证件照让我很痛苦、为 PPT 找配图很痛苦、为公众号文章配图很烦、要给孩子讲故事希望有好玩的图，这些都是痛点。如果我有类似这种费时费力的痛点问题，我会习惯性想借助工具解决，现在有 AI 了就会想用 AI 解决，这已经成了我自己的一个习惯性的反应。但有痛点不代表 AI 就能解决问题，比如之前 GPT-4o 画图能力不错，但 PS 证件照，或者写中文就不行，因为它图像一致性不好，中文支持也不好，所以还需要了解 AI 能力边界在哪里。这时候只能等 AI 模型的进化。然后模型升级后，比如 nano banana 发布了， Seedream 4.0 发布了，AI 有了新的能力，这时候一些以前不能解决或者解决的不好的痛点问题，就可以再用新的模型新的技术去尝试，看是否解决了。其实前两步对普通人来说都不难，难的是怎么做，比如你知道 AI 生成封面图，能生成小红书图片，但是怎么写提示词呢？

#AI应用 #痛点问题 #提示词 #效率提升 #模型进化

...