宝玉

统计数据

774

文章

0

粉丝

0

获赞

6912

阅读

4个月前

Vibe Coding 后上生产环境

4个月前

Gemini CLI 不是一个编程工具，它可以有很多用途，比如翻译文章、搜索、整理文件、子 Agent Gemini CLI 已经发布几天了，很多人拿它跟 Claude Code 对比了一下编程能力，觉得能力不如 Claude Code，就弃之不用了，实际上是错误理解它的定位了。 Claude Code 由于编程能力过于突出，包括后来的 Codex-cli 也是定位编程 Agent，所以大家对于 CLI Agent 天然以为是用来编程的，实际上可以做很多其他任务。比如我用它来翻译： > 请翻译 <url> 的内容为中文，并保存为 Markdown 文件还可以让它帮你整理文件夹: > 请把目录下的照片按照日期归档让它帮你搜索: > 请检索今天的 AI 新闻还可以把它当作你程序的子 Agent，比如你可以在自己的程序里面通过命令 gemini -p "<prompt>" 调用，然后解析调用后结果。 > gemini -p "今天芝加哥天气怎么样？" > 今天芝加哥天气晴朗，最高温度约为 81°F（约 27°C），最低温度约为 72°F（约 22°C）。风速为 5 至 10 英里/小时，湿度为 66%。今天下雨的概率为 0%。当然我这里只是抛砖引玉，更多用途还需要等你发掘，欢迎留言分享！

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#Gemini CLI #多用途工具 #非编程Agent #应用案例 #信息整理

4个月前

Gemini CLI 如果你只是把它当作编程 CLI，那确实不如 Claude Code，但是用它做其他用途很好用，比如把它当翻译 Agent 用，你输入一个 url 让它翻译，又快又好，还可以提各种要求。比如你可以说： > 请翻译：<URL> 为中文注意：如果你想让它翻译后还能保存到 Downloads 目录则需要在 Downloads 目录下运行，其他目录类似

5个月前

再推荐下这个翻译电子书为双语对照版本的开源项目 yihong0618/bilingual_book_maker

5个月前

网友说很多用 Cursor、Claude Code 的新手都不会用 Git，所以改错了都不知道怎么回滚。但是教他们使用 Git 又很难。这让我想起以前也遇到过这样的新手，不过我没有教他怎么用 git，我就教他切换到 Agent 模式，然后提示词里面去指挥 AI 操作 GIT。比如先写：“帮我为当前初始化 git，如果没有安装 git 请安装”，然后成功后，后续每次修改完，去 Agent 模式里面说一句：“请把当前修改提交 git”，或者直接在 Cursor Rules 或者 CLAUDE MD 里面加上一条重要规则：每次任务完成无比 git commit 更改（但是有可能不会严格执行）。现在像 Claude Code 这样的 AI Agent 操作命令行可比人溜多了！

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#Cursor #Claude Code #git #AI Agent #代码回滚

5个月前

Meta 从 OpenAI 挖走三位顶尖研究员，力争打造超智能AI 社交媒体巨头聘请 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai 加入超级智能研究团队 Meta的CEO马克·扎克伯格（Mark Zuckerberg）正大举招募AI顶尖人才，试图扭转公司的AI困境，并迅速推进超级智能（superintelligence）领域的发展。据知情人士透露，Meta近日从OpenAI成功挖走了三名资深研究员，分别是Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai。这三位研究员此前都任职于OpenAI的瑞士苏黎世分部，而该办公室去年底才由他们共同建立。在加入OpenAI之前，他们三人曾一同在谷歌旗下AI实验室DeepMind共事。 OpenAI的发言人已经证实，这三名研究员已正式离职。扎克伯格近期频繁亲自上阵招募AI顶尖人才，此次重磅挖角旨在修复公司前阵子发布的AI模型不够理想带来的负面影响。据悉，他为吸引高端人才，甚至向部分研究人员开出高达1亿美元的加入奖金，组建一个专门攻克超级智能的全新团队，这类超级智能的能力将超越人类智慧。此前Meta还向AI初创公司Scale投资了140亿美元，并聘请其CEO Alexandr Wang带领新的AI团队。此外，扎克伯格也尝试招募OpenAI的联合创始人Ilya Sutskever和John Schulman，但均未成功。 OpenAI CEO萨姆·奥特曼（Sam Altman）在周二的一场活动中谈到Meta挖人的举动，表示他对此并不担心。他调侃称：“扎克伯格又在搞什么疯狂新花样了，下一个是什么？”他还在上周公开表示，公司最优秀的人才并未跳槽到Meta。 Meta之前推出的一款AI模型表现低于预期，扎克伯格自四月起便亲自推动人才招募活动。今年五月，《华尔街日报》曾报道Meta推迟了新一代AI模型（规模更大）的发布计划。不过，也有不少AI研究员拒绝了Meta的高薪邀请，在一些情况下，OpenAI甚至做出了加薪和扩大研究自主权的承诺来挽留人才。如今，以Meta、Google为代表的科技巨头，以及OpenAI、Anthropic等AI初创公司，正在展开一场激烈的人才争夺战，竞相开发引领硅谷下一波创新浪潮的先进AI技术。 Meta计划今年的资本支出高达650亿美元，其中很大一部分将用于AI基础设施建设。扎克伯格近期频频描绘未来的AI愿景：人们将与AI朋友聊天互动，广告创作将完全由AI从零开始实现，而与品牌交流的第一道窗口也将由AI商业智能体（business agents）负责。

5个月前

请教一下，有没有那种开源项目，npm 包什么的，可以读取本地已经登录的 Claude Code、codex-cli、Gemini-cli 的授权认证，然后可以直接基于它调用大模型 API 的，这样我就可以不用 API Key 用 Claude 4、Gemini 2.5 pro 的 API 了，虽然有限额，但基本上可以放开用了。理论上肯定是可以实现的。

5个月前

AI 播客原理解析最近看到一个一篇很好的文章：《The Prompt Engineering Playbook for Programmers》，不过太长了一点，完整看完要不少时间，所以我直接把链接直接发给豆包的 AI 播客，直接就生成了一篇高质量播客，几乎没有等待，当时就可以收听。AI 是如何把一篇文章变成语音播客的？🧵（1/n）

5个月前

作为一个业余自媒体，从来没有专业的去记录数据和分析数据，但是看了影视飓风这个分享还是大受震撼，原来自媒体运营是有这么多学问在里面的，他们这样团队的成功不是偶然的，你可以看到有一套科学的数据分析、系统化的流程和不断迭代的策略，而且核心指标居然只有两个：“点击率（CTR）”和“平均观看时长（AVD）”，仔细想想又挺科学，如果没有点击那么都没有人看；如果点进来了马上划走了，也说明内容不吸引人。也许以后我也应该学他们用飞书多维表格把微博和X的数据都记录下来😅

5个月前

最近借助 Claude Code 给 WhisperKit 贡献了 2 个 PR，都成功合并了。修复了个文件名包含句号出错的 bug，以及给 cli 加上了转译进度条。

5个月前

我最初鼓吹 Claude Code 的时候，就特别说明了新手就不要去用了，因为你可能打开也不知道该干嘛！但是对于铁锤这样的老手来说，只是没切换思维模式，逼着自己用一段时间就会适应，并且习惯了就再也离不开了。程序员熟手要用好 Claude Code，最大的转变来源于思维的转变和开发习惯的转变。这个转变就是先设计再写提示词，然后用提示词生成代码。 “先设计再写代码”这话其实老生常谈，但是说和做是不一样的，虽然我们软件开发都号称是先设计再开发，那通常是针对整体的系统设计，但是到具体实现的时候，很少有人会这么做，因为编程的细节，它不是一下子就清晰的，就算你是个老手，在没实现过的模块，在没有写完的时候是没有完全想清楚的，只有去动手写，一边写一边想，写完一部分在调整甚至推翻重写，这样反反复复写完才算是把它搞明白了。如果再让你把写过的模块重新实现一遍，那就简单直接多了，能很快写完，因为整个设计已经了然于胸，只剩下代码实现了。写代码有些像写文章，你写作的速度是跟不上你脑子思考的速度的，所以你脑子构思好的东西，还要花很长时间的输出才能成文，类似的你思考好的架构要花时间才能写成代码并且编译运行。但写代码又不完全像写文章，因为文字是有艺术性的，你的风格、用词、结构没有特定的套路，要反复斟酌，很费时间，AI 生成的文字很难满足这些方面的要求（有 AI 味），但代码无所谓，相对结构比较固定，而且能稳定运行的话，代码写的差一点也不是不可以接受。所以写文章像我们这样天天写字的人，反而不太爱用 AI 写，因为它写出来的东西有一种奇怪的 AI 味，自己都不爱看更不要说你的读者了。但是写代码不一样，你想清楚了设计，把设计写成提 Prompt，让 AI 去生成代码，以现在 Claude 4 的能力，并不会与你期望的有太大出入，如果有出入，要么就是小问题，再补加要求就能解决，甚至手动调整；如果有大的出入，那一定是你设计的问题，是你提示词没有写清楚，那么就回退一步，回滚代码，调整设计，重写提示词，那么就能重新生成正确。这样设计到提示词，提示词再到代码的好处就是重构起来也特别容易，你不需要去大量手动修改代码，只要把重构的要求写成提示词，Claude Code 这样的 Agent 会很快帮你改好。当然这样做的一个前提：就是每一次不要修改太多，不要生成太多代码，不然就可能会失控。另一个改变就是：Review 代码和测试。很多人没有 Review 代码的习惯，更没有测试自己代码的习惯，每次让 AI 生成代码，我都会仔细看一遍生成的结果，看代码和我期望的是不是一样的——如果我自己写，会怎么样写，它的方案是更好还是更早，更好我可以学习，也欣然接受，凑合那就这样了，不够好我就回滚调整提示词，或者追加一下要求。测试也很重要，单元测试这种用例是要自己设计自己review的，手工测试也必不可少，尽可能让测试成本降低，比如通过命令行去测试、测试代码去测试，这样每次生成完都可以马上测试马上验证，有问题就回滚或者修复。这样刚开始做是很不习惯的，但是当你适应后，你会喜欢这样的开发方式，结果也会更好。顺便说一下，Swift 代码没问题的，我也用 Claude Code 写过的，质量很不错。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#Claude Code #AI 辅助编程 #思维转变 #代码设计 #代码测试

5个月前

有网友今天在德州奥斯汀体验了特斯拉的 Robotaxi (无人驾驶出租车) 公开试乘，全程 4K 高清记录！这辆车搭载了 FSD Unsupervised (全自动驾驶无监督版)，驾驶座上空无一人，而副驾驶座上的安全员面前也没有方向盘和踏板。

特斯拉无人驾驶：交付突破与监管挑战· 90 条信息

5个月前

Claude Code 的强大，首先是模型的强大，Claude 4 无论是 Sonnet 还是 Opus，在编程和 Agent 能力上都很强！这是成功的基础。然后是内置工具的强大，Claude Code 内置有 18 个工具，这些工具有 Grep 检索代码的，有执行命令的，有 TODO 读写的工具，有架构分析的工具，模型借助这些工具模拟了程序员解决问题的思路：制定计划、分析问题、检索代码库找到相应的代码位置、解决问题、测试验证。另外最神奇的那个工具就是 Task 工具我反复提到过，它能给 Claude Code 开分身，执行子任务，既可以专注于子任务不受其他信息干扰，又可以避免主线任务无关上下文太多，还能有 Claude Code 一样的工具能力。再有就是不计成本，Claude Code 默认是不会压缩任何上下文信息的，每请求一次就把之前的历史会话、工具调用和返回结果都一起发过去，所以它不会遗失上下文，其他工具像 Cursor 都得抠抠塞塞压缩上下文节约成本，还限制次数，没执行几次都不跑了问你是不是要继续。还有就是 Claude Code 是 cli 命令行程序，没有 IDE 的包袱，像 Cursor 这样的 IDE，每次请求都需要考虑要把很多 IDE 的信息放到上下文中，比如打开了几个 Tabs，Tabs 的代码都是啥，当前选中的是啥代码，这些信息不提供可能损失了上下文，提供了又可能就会降低上下文相关度以及挤占上下文长度，反倒是 Claude Code 默认不需要 IDE 的上下文，自己缺什么信息就自己去用工具检索代码库或者联网查询，这样上下文都是自己想要的。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#Claude Code #编程能力 #Agent能力 #内置工具 #Task工具

5个月前

Talk is cheap, show me the code! Jason Wei：一位曾在 OpenAI 工作的老朋友告诉过我一句特别经典的话，让我一直记忆犹新： > 每次有人跟他说某人是个“顶尖的AI研究员”时，他都直接花5分钟去看这个人的代码提交（PR）和 Wandb 的实验记录。因为人们总能玩各种办公室政治或者花样美化形象，但到头来，真正的代码和实验数据是骗不了人的。听完这话后，我特意去看了一些真正厉害、非常投入的 AI 研究者，发现他们几乎每天都在运行新的实验，极少有空闲的时候。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#AI研究 #代码实践 #实验数据 #务实 #Jason Wei

5个月前

我用 ClaudeCode 花 2 小时没写一行代码做了一个翻译智能体，并且开源了整个过程这周没怎么更新内容，主要是忙于研究 AI Agent，深度体验了 Claude Code，并且模仿着它的原理实现了一个简单的翻译智能体，最终成品效果不错，只要你输入一段要翻译的文字、或者网址、或者本地文件路径，它就能帮你提取要翻译的内容并翻译。（参考图1）可能你会觉得这似乎没什么了不起的，跟传统的聊天应用也没什么区别，但麻雀虽小五脏俱全，它却是一个真正的 AI Agent。那么 AI Agent 和普通 AI 聊天工具有什么区别呢？关于 AI Agent，我觉得写的最好的文章是 Anthropic 的《构建高效 Agent》，它把 Agent 定义的很清楚： > 智能体（Agent）这个词可以有几种不同的定义。部分用户认为智能体是完全自主的系统，能够在长时间内独立运作，通过使用各种工具来完成复杂任务。另一部分用户则将智能体定义为更具指令性的实现方式，即严格按照预先设计的工作流程运行的系统。在Anthropic，我们将这些不同的系统统称为具备智能体特征的系统（agentic systems），但在架构上，我们明确区分两类系统： > - 工作流（Workflows） > 这种系统的特点是：大语言模型（LLM）与各种工具的调用顺序，由事先定义好的代码逻辑所控制。 > - 智能体（Agents） > 与工作流不同的是，在智能体系统中，大语言模型能够自主决定如何运用工具、动态地引导整个任务的执行过程，从而具备更强的自主性。归纳下来主要就是这几点区别： 1. AI Agent 能和外部环境交互比如它能使用工具读取本地文件；能读取远程网页 2. AI Agent 能动态的使用工具比如我如果只是输入要翻译的文本，它就不会调用任何工具，如果我在一段文本中包含一个要翻译的网址，它就会从中提取要翻译的网址，并抓取内容再翻译 3. AI Agent 能决定任务是否完成举例来说，如果我的指令不是简单的翻译某一个网址，而是比较复杂的指令，像下面这样的： > 请访问这个博客https[:]//ingrids[.]space/ 并将前两篇文章的内容翻译为中文那么它就会先抓取首页，然后分析首页的内容，找到前两篇文章的链接，再去分别抓取前两篇文章，最后再一起翻译，在这个过程中它使用了三次网页抓取工具，直到它认为已经完成任务了才会停止工具的调用。（这个使用案例的截图见图3，有兴趣的也可以自己下载代码运行试试看） Agent 能处理高度复杂的任务，但它们的实现通常很简单：本质上就是 LLM 利用环境反馈在循环中调用工具。连 Claude Code 这样复杂的 AI Agent，底层原理都是这样的，也是不停的调用工具，直到完成任务为止，就像图4 这样。 Claude Code 和普通 Agent 主要的不同在于 Claude Code 能启动子 Agent，也就是它能开分身，把分身当作自己的一个工具来用。就好比一个 AI 程序员，要去实现一个相对复杂一点的功能模块，它会先调用 TODO 工具，把任务分解，然后每个子任务让自己的分身去实现模块，分身只需要专注的完成子任务，这个分身有 AI 程序员本体一样的能力，也能调用所有的工具，等它完成子任务了，AI 程序员再让新的分身去继续下一个任务，直到所有任务完成为止。为什么我在这里选用的是豆包 1.6 模型呢？在实现这个智能体的过程中，我使用的是豆包 1.6 的模型。主要是因为像 AI Agent 这样的任务，普通的大语言模型并不擅长调用工具，即使是普通推理模型都不行，必须要经过专门针对工具调用强化学习（RL）过的模型。简单理解就好比一个大学生，每天要反复练习怎么使用各种工具，用对了工具就有奖励，没用对就没有奖励，这样经过一段时间的学习后，就会特别擅长使用各种工具。只有这样经过强化训练的模型才能胜任好 AI Agent 的任务。目前主流的模型除了豆包 1.6，还有 o3、Claude 4、Gemini 2.5 Pro 来开发 Agent 都很好，豆包 1.6 相对性价比是很高的，国内使用也没有封号的风险。另外火山引擎提供了 MCP Servers，像一些第三方工具可以方便的集成，比如我现在自己实现的网页抓取就很简陋，大部分网页其实都抓不了，如果要让它兼容更多网页，最简单的选择就是去选一个成熟的网页抓取的 MCP 服务，或者后面要支持 PDF 的翻译，这些都能在火山引擎上找到对应的可用 MCP 服务。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#AI Agent #ClaudeCode #翻译智能体 #豆包 1.6 #工具调用

5个月前

🫡致敬，吴恩达老师为留学生、移民发声：欢迎高技能移民和有潜力成长为高技能人才的国际学生，是美国乃至任何国家保持在 AI 领域竞争力的最有效举措之一。几个世纪以来，美国始终欢迎移民，这正是其成为全球科技领袖的重要原因。让移民与美国本土人才共同合作，能够让所有人受益；如果逆转这一立场，将对美国技术发展造成巨大负面影响。我出生于英国，十几岁时持 F‑1 学生签证来到美国上大学，那时我几乎毫无技能、也懵懂无知。幸运的是，随着时间推移，我渐渐掌握了技能，也变得没有那么懵懂。研究生毕业后，我先通过 OPT（Optional Practical Training，可选实习期）项目在斯坦福工作，随后转为 H‑1B 工作签证，最终留在了这里。许多移民都走过类似道路，为美国做出了贡献。然而，如今获取学生签证和高技能工作签证愈发困难：上个月开始暂停新的签证面谈，最近又出现程序混乱、签证被取消等情况。我非常担心，这会削弱我们吸引优秀学生和人才的能力。再者，许多经济条件有限的国际学生必须依靠 OPT 期间的工作收入来偿还高昂的美国学费。如果像部分提案那样削弱 OPT 项目，不仅会让这些学生难以继续学业，也会让美国企业失去宝贵人才。（富裕家庭的学生不受影响，但美国应当在不看财富的前提下吸引最优秀的人才。）难以吸引潜力学生和高技能人才，将给美国在 AI 领域的竞争力带来巨大负面冲击。美国国家安全委员会人工智能委员会就曾在报告中呼吁政府“通过移民强化 AI 人才”。如果这些优秀人才不来美国，仅在其他地方工作，他们对全球 AI 的影响力是否一样？可惜的是，总体影响将会更糟。美国拥有硅谷、西雅图、纽约、波士顿/剑桥、洛杉矶、匹兹堡、奥斯汀等多个科技创新中心，这些中心聚集人才、激发创新。（城市之所以促进创新，正是因为人们更容易相遇并合作。）若让 AI 人才难以聚在一起，创新速度就会放缓，而新的中心要达到同等高度需要时间。与此同时，其他国家和地区正努力吸引能推动创新的移民——这对他们而言是明智之举！他们推出了多种人才签证项目：英国的 Global Talent Visa、法国的 French Tech Visa、澳大利亚的 Global Talent Visa、阿联酋的 Golden Visa、台湾的 Employment Gold Card、中国的 “千人计划” 等等。美国幸运地拥有众多人想来学习和工作，若浪费这一优势，将是严重的自损。除了国家竞争力，更重要的是伦理：我们必须确保善待每个人。我见过一些国际学生因为担心签证被随意取消而惶惶不安。一位学生本来要去国际会议发表论文，却担心回不来美国，最终含泪放弃行程。我还结识了一位持 H‑1B 签证的高技能技术专家，公司倒闭后，他在美国待了十多年，与原籍国已无深厚联系，却只能四处奔走、急寻能帮他留下的工作机会。这些故事，甚至更糟的故事，都令人心碎。虽然我竭尽所能帮助身边的人，但我们却制造了如此不确定的环境，以至于许多才华横溢的人不再愿意来美国。对所有在美且对当前环境感到焦虑的移民或流动人口：我理解并同情你们的担忧。作为一名移民，我将继续为每个人的尊严和正当程序而战，并鼓励合法移民，因为这对美国和每个人都大有裨益。

5个月前

配合他们自己写的《构建高效 Agent [译]》更好理解

5个月前

我看到有人在让“Claude Code”自己开新进程 `claude -p `实现多任务，其实没必要，有更简单的办法。这个简单办法就是让它自己开子 Agent。Claude Code 现在有 18 个工具，最特殊的一个工具叫 Task，它本质就是一个 Claude Code 的克隆工具，只不过是作为 Claude Code 的一个工具。如果你懂递归的话就很好理解。如果你不懂递归，可以这么理解：Claude Code 是个 AI 程序员，它可以用一堆工具，其中最神奇的一个工具叫 Task，就是克隆一个自己的分身去干活！这样做有什么好处呢？就是可以并行多任务，还可以控制上下文，让子任务更专注。举例来说，你粘贴一段错误代码让 Claude Code 去 Debug，并且还让它写测试代码覆盖这个错误。Claude Code 会先调用 TodoWrite 这个工具写一个 TODO List。把任务分成 3 步： - [ ] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖这一步完了后它会起一个 Task，这个 Task 就是专门根据错误信息去找到相关代码的位置，那么这个子任务只需要接受错误信息找上下文，它不管怎么解决 Bug，也不管怎么写测试覆盖。主任务就会等这个子任务完成，子任务完成后，主任务就调用 TODO Write 更新 TODO List。 - [x] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖然后调用 TodoRead 工具看下一步要干嘛，现在有充足上下文了，它可以再起一个子任务去根据错误信息和代码修复 Bug，等修复 Bug 的子任务完成了，再回到主任务，继续更新 TODO List，继续读取下一个 Item 最后再启动一个子任务去写测试，测试子任务也完成了，返回结果到主任务，这时候调用 TodoRead 一看任务都处理完了，最后根据前面的任务情况给你一个总结摘要，表示任务都完成了。 Claude Code 真的没有做什么工程上的优化，什么上下文压缩、临时存储，都没有的！就是简单粗暴： 1. 把用户问题、系统提示词、能用到的工具一股脑发给 Claude，问下一步该干嘛 2. Claude 就返回说现在你要到 TodoWriter 工具 3. Claude Code 就去调用 TodoWriter 工具，本质上也是一个 AI 请求，最后返回生成的 Todo List 4. 然后 Claude Code 把工具返回结果和前面的所有消息继续发给 Claude，Claude 返回说你现在要去起一个新的 Task 去收集代码了 5. 然后 Claude Code 就起一个新的 Task，把错误信息和要求收集相关代码的任务说明、系统提示词、环境说明、能用到的工具一股脑发给 Claude，问下一步该干嘛 - 在新的 Task 里面，就是不停的问 Claude 该用啥工具，然后发送工具结果和前面所有历史消息 - 任务完成后，返回任务结果 6. 然后 Claude Code 把子 Task 的结果和前面历史信息一起发给 Claude 问下一步干嘛 7. 就这样循环直到 Claude 认为任务完成了所以你经常看到 Claude Code 在那几十分钟上下文也没爆掉，因为它会启动子任务，这样上下文就分摊到子任务中了，主任务中只是保留子任务完成后的内容。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1242 条信息

#Claude Code #多任务处理 #子Agent #递归 #debug

5个月前

转译：如果 AI 如此强大，为何翻译岗位依然抢手？ 2024年6月18日作者：Greg Rosalsky 今年早些时候，语言学习应用 Duolingo（多邻国）成为了一个典型案例，它因裁减员工并用人工智能取而代之，引发了一连串新闻头条的密集报道，加剧了公众对人类工作岗位安危的焦虑。最引人注目的裁员对象是翻译人员，他们原本负责公司一些较小众语言课程的翻译工作。在媒体盘点的最可能被 AI 取代的职业榜单上，笔译和口译员总是名列前茅。因此，当 Duolingo 裁员的消息传开时，似乎印证了那场不可避免的 AI“就业末日”已经来临。在最近与 Planet Money 的一次对话中，Duolingo 的首席执行官路易斯·冯·安 (Luis von Ahn) 淡化了这次裁员的意义。他解释说，被裁的并非全职员工，只占公司合同工的 10%。公司近期对生成式 AI 的应用也只是做出该决定的部分原因，等等。更有趣的是，考虑到 Duolingo 与 OpenAI 的官方合作关系，冯·安对 OpenAI 最近展示其最新版 ChatGPT——GPT-4o 的反应尤其值得玩味。在上个月发布 GPT-4o 的直播演示活动中，OpenAI 展示了其热门聊天机器人在实时翻译方面的卓越能力。演示中，两名 OpenAI 员工，一人说意大利语，另一人说英语，通过智能手机上的 ChatGPT 应用进行对话，应用清晰地翻译了两人的交谈。这个演示很简短，员工们只问答了一个问题：“如果鲸鱼会说话，它们会对我们说些什么？” 考虑到这是一场公开的营销活动，ChatGPT 的表现——不出所料——堪称完美。 “有趣的是，他们居然拿这个做演示，”冯·安说。他表示，谷歌翻译大概在 8 年前就能做到类似的演示了。他说，现实情况是，世界主要语言之间的机器翻译水平“相当高”已经有很长一段时间了。确实，AI 在近十年或更长时间里，一直在极大地增强机器翻译外语的能力——这正是为什么它能成为一个有趣的案例，用以研究 AI 对就业市场的潜在影响。与一些末日论者的看法相反，AI 对翻译岗位的大屠杀并未到来，即使在 Duolingo 也没有发生。事实证明，完全自动化翻译工作是很难的。那么，为什么 AI 没有扼杀这些工作呢？即使没有，它又是如何重塑这些岗位的呢？ AI 炒作美国翻译协会 (American Translators Association) 的代表布里奇特·海拉克 (Bridget Hylak) 表示，早在 2006 年谷歌翻译上线时，翻译行业就一直在“猜测 AI 取代人类翻译的潜力”。该协会是美国最大的笔译和口译专业组织。“自 2016 年左右神经机器翻译 (NMT) 问世以来，它标志着对传统机器翻译（如谷歌翻译）的重大改进，我们（笔译和口译员）就一直在将 AI 融入我们的工作流程中。” 所以，没错，翻译人员与 AI 打交道已经有段时日了。然而，尽管任何拥有智能手机的人都能免费或以相对较低的成本使用这种机器翻译技术，但市面上仍然有大量的笔译和口译员工作岗位。事实上，根据美国劳工统计局 (BLS) 的数据，得益于全球化，2008 年至 2018 年间，人类笔译和口译员的工作岗位数量增长了 49.4%。2018 年之后，BLS 改变了收集和衡量职业数据的方式，这使得衡量过去几年的就业增长数据变得不那么可靠。然而，美国人口普查局的数据显示（该局从 2020 年开始追踪这一职业的增长情况），从 2020 年到 2023 年，受雇为口译员和笔译员的人数增长了 11%。（感谢我们《钱وكب》的新同事索菲亚·舒金娜 (Sofia Shchukina) 帮助我们筛选和处理了所有这些数据！）现实是，尽管 AI 技术取得了进步，但人类口译和笔译员的工作岗位并没有崩盘。实际上，数据显示这些岗位还在增长。目前，大量的企业和政府机构都正在招聘笔译和口译员。例如，本田汽车公司目前正在为其南卡罗来纳州的工厂招聘一名日语口译/笔译员。电动汽车电池制造商 Starplus Energy 公司正在为其印第安纳州科科莫市的工厂招聘多名韩语口译/笔译员。旧金山市正在招聘一名“双语（英语-西班牙语）笔译/校对员兼电话接线员”。Languars Inc 公司则希望招聘一名“法语医学口译员”。实际上，BLS 预计在未来十年，口译和笔译员的工作岗位将增长约 4%。虽然这与过去二十年该行业的巨大就业增长相比有所放缓，但实际上仍略快于 BLS 对美国经济中所有现有职业的平均增长预期。那么，既然 AI 已经变得如此出色，尤其是在翻译方面，为什么还会有这么多笔译和口译员的工作岗位呢？ “嗯，我倒不觉得它有_那么_好，”麻省理工学院 (MIT) 研究 AI 的明星经济学家达龙·阿西莫格鲁 (Daron Acemoglu) 说。“我认为 AI 的能力常常被夸大了。” 阿西莫格鲁最近发表了一篇新的学术论文，算是给对 AI 的狂热泼了一盆冷水。当然，他说，AI 可以做一些令人惊叹的事情。“但人类所从事的有意义的职业，几乎没有什么是生成式 AI 现在能独立完成的。因此，在几乎所有事情上，它最多只能帮助人类，最坏的情况下，甚至连帮助都谈不上。” 阿西莫格鲁认为，翻译是检验 AI 取代人类工作能力的“最佳试验场之一”，“因为，我认为如果它能做成什么事，那就是翻译了。” 但是，他说，即使在这个领域，这项技术也“不那么可靠”。为何 AI 没能干掉翻译这颗星（至少现在还没有）想听听对 AI 更乐观的看法，我们回到 Duolingo 的 CEO 路易斯·冯·安。和许多技术专家一样，冯·安预见 AI 将迎来一个截然不同的世界。例如，它通过让用户能与交互式聊天机器人进行丰富的、即兴的对话，从而使他公司通过应用程序教人们外语的使命变得更加有效。然而，即使是冯·安也承认，这项技术仍然存在局限性。这就是为什么，尽管最近的新闻头条暗示了相反的情况，他的公司仍然雇佣翻译人员。“计算机仍然会犯错，”冯·安说。“如果你是军队的翻译，正在和敌方战斗人员交谈，我想你不会想完全依赖一台电脑。” 冯·安说，Duolingo 仍然使用人类翻译来复核机器生成的译文，确保公司的学习内容中没有错误。但是，他说，他公司的翻译人员主要从事业务中更高价值的工作，在这些地方，雇佣一个人的额外成本是真正值得的。“比如 Duolingo 的用户界面，应用上的一个按钮写着‘退出’或‘立即购买’之类的，这些翻译都是由人来完成的。我们在这上面投入了大量精力，因为这些功能中的每一个都极具价值。我们绝不能出错。” 而且这不仅仅是关于错误，冯·安补充道。公司还利用人类翻译来确保整个应用中公司风格和语调的一致性。事实证明，AI 无法始终掌握 Duolingo 想要传达给用户的那种“俏皮的语调”。所以，为此，冯·安说，“我们仍然雇佣人类。” 美国翻译协会的另一位代表丹尼尔·塞贝斯塔 (Daniel Sebesta) 表示，这是公司和政府仍然雇佣人类翻译的普遍原因。“AI 在处理需要创造力、文化敏感度和理解微妙含义的复杂语言任务时仍然举步维艰，尤其是在低资源语言（即没有数百万高质量翻译词汇可用于训练 AI 的语言）方面，”塞贝斯塔说。“公司之所以继续聘请人类笔译和口译员，是因为他们明白，AI 无法取代这些专业人士带来的专业知识和判断力。在法律、医疗等高风险项目以及文学翻译领域，这一点尤其正确，因为在这些领域，准确性和文化适宜性至关重要。” 在那些错误可能意味着诉讼、尴尬、伤害甚至死亡的领域，如此多的公司、非营利组织和政府机构仍然希望由人类来监督和编辑 AI 生成的笔译和口译内容，这是非常有道理的。此外，由于法规的要求，对人类笔译和口译员的需求也相当大。“在美国，《1964年民权法案》第六章禁止基于语言的歧视，所以一些实体——比如法院和学校——被强制要求提供语言服务，”海拉克说。 “尽管翻译软件被广泛使用，但在流程中拥有一位人类专家对于确保可靠和准确的翻译仍然是必要的，”美国劳工统计局的经济学家哈维尔·科拉托 (Javier Colato) 说。“处理更复杂的翻译，如技术文件和文学作品，也需要人类翻译。因此，考虑到对翻译的强劲潜在需求以及对人类翻译的持续需要，该职业仍有可能实现一定的就业增长。” “人机协作”翻译的薪酬我们交谈过的每个人都强调，如今，人类笔译和口译员正在使用 AI 作为工具，以变得更加高效。“我们看到了一个未来——对许多人来说，实际上已经是现在——AI 赋能的工具与人类笔译/口译员协同工作，AI 处理更多常规任务，而人类则将认知精力集中在传达意义中更具创造性和细微差别的方面，”塞贝斯塔说。冯·安认为，这种在翻译领域的人机协作是翻译服务需求如此强劲的原因之一。“你今天所看到的，尤其是在翻译领域，是这种人类与计算机的组合，一种混合模式，”冯·安说。这使得翻译变得更快、更便宜，因此，他说，“需求也大得多了。” 所以，很好，随着翻译服务变得更便宜，需求也更多了。而且事实证明，至少到目前为止，AI 在没有人类重要角色的情况下，无法完成大部分工作。但这并不一定意味着从事这些工作的人在这个不断变化的翻译经济中能够 thriving（蓬勃发展）。他们工作中大部分的 AI 自动化，实际上可能正在贬低他们的技能，因为在机器的帮助下，更多的人可以更好、更快地完成更多的翻译工作。阿西莫格鲁的研究表明，自动化对工资的影响是复杂的，并且不是普遍的。有时自动化可以使工人更富有。想想看，医生们因为电脑的帮助，不再需要花那么多时间在文书工作上。相反，他们可以更多地专注于治疗病人的核心技能。这些技能稀缺、需求量大，因此非常有价值，通过更多地专注于这些技能，医生可以变得更有效率，甚至更富有。但其他时候，自动化可能会通过贬低其核心技能来损害一个职业的工资。即使自动化没有扼杀这个工作，也许在市场上曾是高技能的工作，随着机器让更多人能够胜任，它可能会变成一个更低技能的工作。而且，当然，这些现在被视为低技能的工人可能比技术进步前生产力高得多。但是，阿西莫格鲁强调，这并不意味着他们必然能分享到那份生产力带来的成果。工厂主——或者 AI 算法的所有者——可能会拿走所有的钱。阿西莫格鲁的研究表明，从历史上看，工人们不得不通过罢工、工会化努力，或者选举亲劳工的政治家来通过最低工资法等政策，才能分享到机器创造的新财富，并提高他们的生活水平。来自美国劳工统计局的数据——这通常是这类信息的最佳数据来源，但同样，可能不适合追踪过去几年的变化——表明，典型笔译和口译员的工资实际上是在增长的。截至 2023 年，典型的口译和笔译员时薪为 27.45美元，年薪约 57,090 美元，这略高于所有美国工人的典型薪酬（年薪约 48,000 美元）。在收入方面，塞贝斯塔预见到，掌握 AI 的翻译和不掌握 AI 的翻译之间的差距将越来越大。“前者的收入将会增加，从业者会感到被赋能，”塞贝斯塔说。“另一部分人则可能会感到被抛在后面和被剥削，并错失机会。”他说，这就是为什么他认为他的组织——美国翻译协会——在帮助翻译人员适应技术变革并在 AI 时代茁壮成长方面肩负着重要使命。麻省理工学院的经济学家阿西莫格鲁在审视翻译行业的经济学时认为，随着技术变革席卷整个行业，大多数笔译和口译员的收入可能会受到冲击。对他来说，这归结为供求法则。如果 AI 导致翻译供应量大增，那很可能意味着翻译的价格会下降。翻译服务变得更便宜。对消费者是好事。但对许多翻译的收入来说可能不是好事。不过，他说，也许行业中的精英工作者——比如书籍翻译或在外交领域工作的高级口译员——将能免受这种工资下行压力的影响。但是，即使这种情况真的出现，也并不意味着在短期内对大多数人类笔译和口译员的工作构成生存威胁。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 854 条信息

#AI #翻译岗位 #人工智能取代 #岗位裁员 #多邻国 #Duolingo #工作岗位危机

5个月前

转译：从谷歌翻译看懂「氛围编程（Vibecoding）」作者：Ingrid 最近，网上关于「大语言模型（LLM）将终结程序员职业」的悲观预测（甚至是有意炒作）屡见不鲜。这些讨论往往缺乏深度分析，因此我想补充一些自己的看法。有一方的人说：“我用大语言模型服务商写了一个小工具，以后所有程序员都会在随便一个时间点失业”；另一方则完全否定这种工具的实用性。¹ 为了更好地理解这些说法，我们不妨借助另一个领域作为参考，这个领域在AI的影响下，明显走在程序开发的前面：翻译。谷歌翻译已经存在多年，并经历了数次技术升级。我尤其关注的是2016年后谷歌采用神经网络机器翻译后的表现。这些年来，不少人声称“翻译和口译职业要完蛋了”。我怀疑，这些人可能从未真正与翻译或口译人员合作过。他们喜欢举的典型例子是：“我去日本旅游，到处用谷歌翻译，根本不用再请翻译或学日语了。”虽然这体现了机器翻译的实用性，但后半句需要仔细审视，尤其是“再也不用”这几个字。我敢说，即使没有谷歌翻译，这些人也不会请翻译或特意去学日语。他们可能干脆就不去日本旅游，或者去了之后仍然做一名一头雾水的外国游客。事实上，如今翻译和口译的工作机会反而增加了。这并不意味着机器翻译不够好，相反，我认为它已经非常接近当前技术能达到的最佳效果。这也不意味着机器翻译没有改变翻译行业本身：正如美国翻译协会代表布里奇特·海拉克（Bridget Hylak）所说：“自2016年神经网络机器翻译（NMT）兴起以来，这种技术相比传统的机器翻译（如早期的谷歌翻译）明显提升，我们（翻译和口译从业者）也一直在将AI融入工作流程。” 要理解这一表面矛盾，我们必须先搞清楚翻译人员到底在做什么。与程序员类似，翻译人员经常被外行误解。很多人眼中，翻译人员就是一本活字典，随时能从一种语言切换到另一种语言。可现实中，翻译工作更多是关于理解上下文、处理歧义，以及敏感地对待文化差异——这些都是谷歌翻译目前还无法做到的。举个简单的例子，挪威语与英语非常相似，按理说翻译应该轻而易举。两种语言有大量相似词汇、相近语法，甚至很多习语都能逐字翻译。但仍存在明显的文化差异，例如挪威人日常说话极少使用礼貌用语，比如“请”。尽管挪威语可以用「vær så snill」或「vennligst」表示“请”，但实际生活中他们更喜欢简单直白的表达方式。如果晚餐时挪威人想要土豆，可能直接会说：“Jeg vil ha potetene”（字面意思是“我要土豆”，英语中显得过于傲慢），但英国人可能会委婉地说：“Could I please have some potatoes?”（请问我能要些土豆吗？）好的口译员了解这些细微差别（或至少懂得及时询问澄清），而谷歌翻译只能给出简单的直译。如果是与国外亲戚的家庭晚餐，或许还能应付过去；但若是法庭审理现场，直接用谷歌翻译就非常不妥了。而挪威语已属“简单案例”，对于我们的游客而言，日语与英语差别巨大，例如经常省略显而易见的主语，但谷歌翻译却不得不凭空补上主语。你会放心地让电脑任意补充你没说出的内容吗？以上并非意味着谷歌翻译做得差。如果没有任何上下文或者澄清的机会，要求我翻译“Jeg vil ha potetene”，我也只能给出相同的答案。毕竟，这个人可能确实想表现得无礼，我怎么知道？作为双语人士，我经常使用谷歌翻译，但不是让它帮我把一整段文字翻译出来，而是更细致地融入日常表达的过程中。比如，“我知道想表达什么，也知道该如何表达和理解其中的文化细微差别，但我对自己的用词还不够满意，想看看别人最常见的表达方式是什么样的。”事实证明，这正是语言模型非常擅长的任务。我猜测，布里奇特所说的“融入AI的工作流程”可能也是这种意思（当然她的工作流程肯定比我的复杂得多）。² 程序员面对的问题类似，我们甚至可以把程序员看作是“翻译”，只是他们要将人类模糊、充满文化差异的语言转译成电脑能理解的精准语言。³ 当然，程序员还需要创造抽象的概念，这也解释了为什么机器翻译应用于程序语言的进展相对较慢。不过，如今“巨头公司™”已经把大量开源代码全扔进了数据“粉碎机”，机器翻译程序语言的能力已经突飞猛进了。当然，我并不否认，未来的某种AI或许真的能像人类一样敏锐地捕捉上下文与歧义。但我认为，要实现那一天，我们至少还得经历一轮新的“AI寒冬”。毕竟目前掌控AI技术的大佬们，似乎缺乏必要的细致思考，他们更在乎产品外表的光滑流畅，而非真正负责任地提供可靠的输出。 --- 1. 当然，说这种工具的用途有限、负面影响大过其作用，也是合理的。↩︎ 2. 尽管我已经说出了这个使用场景，但近期内我并不打算真正这么做。因为我觉得效率提升并没有显著到让我忽略目前AI工具存在的伦理风险。↩︎ 3. 我遇到过很多程序员，似乎真的相信自己存在的唯一意义就是不断写代码，而且越多越好。我原本希望拥有一台“喷代码机器”能让他们意识到这种想法的错误，但遗憾的是，这些人很可能继续依靠公司组织中的混乱而存活下来。↩︎

#氛围编程 #大语言模型 #程序员职业 #自动化编程 #人工智能

5个月前

很多公司或者开发者在开发智能体时，为了节约成本，会在一开始就选择便宜的能力较弱的模型，于是要花费很多时间在工程上，但实际上，在原型设计和基线测试阶段，应首先使用当前可用的最强大的模型（例如 Claude 4、o3、Gemini 2.5 Pro 等）来构建智能体。这样做的目的，是为了建立一个性能基准（Performance Baseline）。通过使用能力最强的模型，可以最大限度地确保智能体能够成功完成任务，从而验证工作流设计、工具定义和指令清晰度的有效性。这种策略看似有悖于常规的成本控制直觉，但在AI开发初期却至关重要。在智能体开发中，最大的不确定性并非来自执行效率，而是来自推理能力——即“这个复杂的任务是否有可能被自动化？”。如果从一开始就使用一个能力较弱的模型，当智能体执行失败时，开发者将面临一个难以诊断的困境：失败的原因是指令不够清晰，是工具存在缺陷，还是模型本身就不够“聪明”？这个混杂的变量使得问题排查变得异常困难。反之，通过从最强模型入手，开发者实际上是在测试中消除或最小化了“模型能力不足”这一变量。如果在这种最优配置下智能体仍然失败，那么问题几乎可以肯定地归结为指令或工具的设计缺陷——这是一个更具体、更易于解决的工程问题。这种方法论首先验证了项目的“可行性”，然后再去优化“经济性”，从而有效地为项目早期阶段去风险，避免团队因过早使用能力不足的模型进行测试而错误地放弃一个本有潜力的应用场景。一旦通过最强模型成功建立了性能基准，并利用评估框架（Evals）量化了其表现，下一步就是进行迭代优化。开发者可以尝试将系统中部分或全部任务替换为更小、更快或成本更低的模型，然后再次运行评估，观察其性能是否仍在可接受的范围内。并非所有任务都需要顶级模型的推理能力。一个复杂的智能体系统可能会采用异构模型部署策略：例如，由一个强大的“主管”智能体负责顶层规划和决策，而将一些相对简单的子任务，如意图分类或数据格式化，交由更小、更快的模型来处理。这种数据驱动的优化过程，使得团队能够在性能、延迟和成本三者之间找到最佳的平衡点。

#智能体开发 #成本管理 #模型选择 #性能基准 #工程效率

5个月前

转译：为什么生成式 AI 编程工具和智能体对我没用作者：Miguel Grinberg 人们总是问我，我是否使用生成式 AI 工具来编程，以及我对它们有何看法。因此，我决定将我的想法写下来，这样以后再有人问起，我就可以直接把这篇文章甩给他们，而不必每次都重复自己的观点。从标题你大概已经猜到，这不会是一篇吹捧 AI 的博文。但它也不是一篇反对 AI 的文章，至少我不这么认为。市面上已经有太多 AI 吹和 AI 黑写的文章了，我觉得没必要再多我这一篇。虽然在这个话题上我绝非中立，但在这篇文章里，我只想从纯粹技术的角度，分享我个人使用这些工具的真实体验。 AI 并不更快说真的，生成式 AI 工具对我没用的最主要、也是最重要的原因是：它们并没有让我写代码变得更快。就这么简单。使用生成式 AI 编程工具来为我写代码，听起来很容易。如果是一个 AI 智能体，那就更方便了，它在我做别的事情时就能直接编辑我的文件。原则上，这一切听起来都很美好。但问题在于，我需要为这些代码负责。我不能盲目地把它们添加到我的项目中，然后祈祷一切顺利。只有在我彻底审查并确保完全理解了 AI 生成的代码之后，我才可能将其整合进我的项目。我必须有信心在未来能够修改或扩展这段代码，否则我就不能用它。不幸的是，审查代码实际上比大多数人想象的要困难得多。审查一段不是我写的代码，至少要花掉我与亲手写这段代码相同的时间，甚至更多。我们行业里有句名言，大意是“读代码比写代码更难”。我记得最早将此概念理论化的人是 Joel Spolsky（Stack Overflow 和 Trello 的创始人），在他的文章《有些事你永远不该做，第一部分》中提到了。你可能会说，可以把 AI 写的代码当成一个“黑箱”。我想，你可以说服自己，只要代码能按预期工作，就可以安全使用，无需审查，这样就能提升一些生产力。但在我看来，这是极不负责任的，因为如果这段代码将来出了问题，AI 是不会承担任何责任的。无论有没有 AI，我永远是我产出的代码的第一负责人。在我看来，承担如此巨大的风险是疯狂的。这一点在我从事的某些工作中尤为重要，因为这些工作涉及签署合同、法律义务和金钱交易。如果我是以专业人士的身份被雇佣，那我别无选择，只能做到专业。AI 工具无法帮我赚更多钱，也无法让我在更短时间内完成工作。我唯一能通过它实现这些目标的方式，就是牺牲工作质量并引入风险，而这是我绝不愿意做的。 AI 不是生产力倍增器我听过有人说，生成式 AI 编程工具对他们来说是生产力的“倍增器”或“赋能器”。基本上，持这种观点的人声称，使用生成式 AI 后，他们能工作得更快，也能处理更复杂的问题。可惜的是，这些说法仅仅基于使用者自身的感觉，并没有确凿的数据来支持。我猜，或许有些人审查代码的效率比我高，但我对此表示怀疑。我认为真实情况是，这些人之所以能节省时间，是因为他们只对 AI 生成的代码进行抽查，或者干脆跳过了整个审查阶段——正如我上面所说，这对我来说是绝对无法接受的。另一个我常听到的论点是，当你需要用一种不熟悉的语言或技术编写代码时，生成式 AI 会很有帮助。对我来说，这同样没什么道理。作为一名软件工程师，我最享受的部分就是学习新事物，所以“不懂”从来都不是我的障碍。你越是练习学习，学习的速度就会越快、越容易！近年来，我为了不同的项目，不得不学习了 Rust、Go、TypeScript、WASM、Java 和 C#，我绝不会把这个学习的过程委托给 AI，哪怕它能帮我节省时间。当然，它也省不了，原因还是上面那些——我要为我产出的代码负责。抱歉，我在这点上有点啰嗦。 AI 代码不同于人类代码前几天我和一个朋友聊起这些观点，他问我，既然如此，为什么我乐于接受人们为我的开源项目所做的贡献呢？那些不也是别人写的代码吗？为什么人类写的可以，AI 生成的就不行？真相可能会让一些人感到震惊：用户提交的开源贡献其实也并不能节省我的时间，因为我同样觉得必须对它们进行严格的审查。但是我享受与那些对我的项目感兴趣并花时间报告 bug、请求新功能或提交代码修改的用户合作。这些互动首先是新思想的源泉，它们直接帮助我把工作做得更好。这正是我热爱开源工作的地方！我的朋友仍然不服气，他建议我可以并行启动一堆 AI 智能体，为我所有未解决的 bug 创建拉取请求（PR）。“这会改变游戏规则的！”他说。不幸的是，这只会花掉我的钱，并且可能让我变得更慢，原因已如前述。即便我们假设 AI 编程工具已经足够成熟（实际上还差得远），能够在很少或没有监督的情况下修复我项目中的问题，我仍然是那个瓶颈，因为所有这些代码在合并之前都必须经过我的审查。 AI 编程工具唾手可得，其不幸的一面是，现在一些用户也用它们来生成低质量、敷衍了事的拉取请求。我已经收到过一些这样的 PR，有趣的是，当我开始阅读那些未经真人编辑和润色的 AI 代码时，一种“恐怖谷”效应在我心中油然而生。当我遇到这类 PR 时，我会开始向提交者追问他们代码中那些奇怪的部分，因为我认为他们需要为自己想要合并的代码负责。但他们，通常很少回应。 AI 不等于实习生许多 AI 倡导者说，你应该把你的 AI 编程工具当作一个渴望取悦你的实习生。我认为说这话的人，大概从没带过实习生！在初期，将工作委派给实习生会导致你的生产力下降，原因和我上面列举的差不多。实习生需要大量手把手的指导，他们产出的所有代码在被接受前都需要仔细审查。但是，实习生会学习并随着时间的推移而进步。你花在审查代码或向实习生提供反馈上的时间并没有被浪费，这是对未来的投资。实习生会吸收你分享的知识，并将其用于你之后分配给他们的新任务中，随着实习期的推进，对他们进行密切监督的需求会逐渐减少。最终，实习生常常因为成长为成功的独立贡献者而被公司聘为全职员工。而一个 AI 工具，最多只能算是一个患有“顺行性遗忘症”的实习生，这可不是什么好实习生。对于每一项新任务，这个“AI 实习生”都会重置回原点，什么也没学会！结论我希望通过这篇文章，我已经清楚地阐述了我在工作中应用生成式 AI 编程工具时遇到的技术性问题。根据我的经验，AI 编程这回事，天下没有免费的午餐。我相信那些声称 AI 让他们更快或更高效的人，是为了实现这些收益而有意识地选择放宽了他们的质量标准。要么是这样，要么他们这么说，只是因为他们自己能从向你推销 AI 中获利。

#生成式AI #编程工具 #智能体 #个人观点

5个月前

Gergely Orosz: 除了谷歌之外，还有哪家大型公司**没有**把Sonnet作为他们主要的代码模型吗？我听说，甚至连Meta公司都已经从Llama内部转用了Sonnet！ Anthropic的确创造了一个不可思议的奇迹：如今大部分科技公司编程时默认使用的模型居然都是他们家的。令人特别意外的是，Meta居然发现：即使是专门用自家代码库微调训练过的Llama模型，效果仍然不如**未经任何微调的Sonnet**好！这可是Meta啊！拥有如此强大的资源，又立志打造业界顶级的模型，现在却还得乖乖向Anthropic付费（至少目前是这样）。但仔细想想，Sonnet的确很特别。从Sonnet 3.5开始，它一直都是业界编程领域的绝对领先者，甩开其他模型一大截。当然，现在其他模型也逐渐追了上来，但Sonnet的主攻方向和优势似乎一直都聚焦在**编程领域**？ > 我觉得关键还是专注。 > Anthropic明显将精力集中在技术和编程领域，而其他模型往往既想做通用用途，又想兼顾编程任务。 > -- Chris Sommers 另外，传统企业中有个很过时的观念：他们担心用Sonnet这样的模型会导致**隐私泄漏**。其实根本不会，只要用像AWS Bedrock这种服务，就能确保数据不会被传出，根本不存在隐私问题！

#谷歌 #Meta #sonnet #llama #代码模型 #Anthropic #科技公司

5个月前

华尔街日报：OpenAI与微软的紧张关系逼近沸点 OpenAI 这家初创公司对合作伙伴日渐不满，甚至考虑向监管机构发起反垄断投诉。近日，OpenAI与微软之间围绕双方知名的AI合作未来走向，紧张局势急剧升级。 OpenAI希望削弱微软对其AI产品和算力资源的控制，并争取微软同意其转型为盈利性公司。微软的批准对OpenAI至关重要，只有成功转型，它才能进一步融资并实现上市目标。但相关谈判进展极为艰难。据知情人士透露，过去几周OpenAI高层甚至探讨了一项激烈措施：指责微软在合作期间存在反竞争行为，并考虑寻求联邦监管部门审查双方合同条款是否违反反垄断法律，同时进行公开宣传。若真采取这一激烈行动，将可能严重破坏两家公司已有六年的合作关系。这段关系被广泛视为科技界史上最成功的伙伴关系之一。多年来，微软为OpenAI的发展提供大量资金支持，以换取对其技术的优先访问权。但如今，双方已成为竞争对手，合作基础变得更加脆弱。两家公司的代表在联合声明中表示：“我们长期稳定的合作伙伴关系，已为广大用户提供了卓越的AI工具。目前相关谈判仍在进行，我们对未来继续携手共建充满信心。” 据知情人士透露，OpenAI和微软之间的僵局主要围绕OpenAI以30亿美元收购AI编程创业公司Windsurf的交易条款展开。根据现有协议，微软拥有对OpenAI所有知识产权的访问权限。但微软自身也拥有与OpenAI竞争的AI编程工具GitHub Copilot。OpenAI明确反对微软获得Windsurf的知识产权。 OpenAI与《华尔街日报》母公司新闻集团（News Corp）还达成了内容授权协议。双方的分歧还涉及OpenAI如果转型为公众利益公司后，微软的持股比例问题。知情人士称，目前微软要求的股份比OpenAI愿意提供的更多。如果OpenAI无法在今年年底前完成转型，它将面临失去200亿美元融资的风险。拜登政府领导下的美国联邦贸易委员会（FTC）去年已启动了对微软的全面反垄断调查。调查也涵盖了微软此前对OpenAI的投资，以及其他科技巨头对AI领域的投资。微软最早在2019年向OpenAI投资10亿美元。按照现有合同，微软拥有在其Azure云平台独家销售OpenAI软件工具的权利，并拥有对OpenAI技术的优先使用权。此外，微软应是OpenAI唯一的算力提供方，不过去年微软允许OpenAI启动名为Stargate的自建数据中心项目。目前，双方已在多个领域展开竞争，包括面向消费者的聊天机器人和面向企业的AI工具。去年，微软CEO萨提亚·纳德拉甚至雇佣了奥特曼的一位竞争对手，秘密开展了一项为微软自主构建AI模型的计划。 OpenAI目前试图在转型计划同时，重新协商合作协议中的一些条款。它希望与更多的云服务提供商合作，以便向更多客户出售技术并获得更充足的计算资源。而微软则希望，即使在OpenAI宣称自身模型达到“人类级别智能”（即人工通用智能，AGI）后，仍能继续获得OpenAI技术。按双方协议，一旦OpenAI实现AGI，双方当前的合作关系即告终止。 “人工通用智能”这一技术的可能性一直备受科技界高管争议。一些人认为它即将到来且触手可及，而另一些人则认为它遥遥无期甚至难以实现，预计AI的发展仍将以渐进式改进为主。

OpenAI与微软关系紧张，或将发起反垄断投诉· 29 条信息

#OpenAI #微软 #紧张关系 #反垄断投诉 #AI合作 #公司转型 #融资目标

5个月前

请教一下，如果在国内要做AI生成图片的产品，如何做输出后内容的检测，比如色情的、政治敏感的？有没有什么开源小模型可以用的？有没有什么商业产品可以用的？

#AI生成图片 #内容检测 #色情检测 #政治敏感 #开源模型 #商业产品

... ...