宝玉
1年前
这漫画一开始没看明白,只好去问 AI 啥意思 这幅图用一种动漫场景的对比,讽刺(或调侃)了“MBA 或商科背景的人”与“CS(计算机科学)专业的人”之间在创业或做项目时常见的角色分工与心态落差。 1. **人物设定** - 前面走的男孩贴着“CS undergrad(计算机专业本科生)”的标签,一脸不耐烦或嫌弃的神情。 - 后面追上来的女孩贴着“MBA”的标签,并且在对男孩喊着“你来做产品”“我来当商务角色”之类的话。 2. **场景表现** - CS 本科生一副想远离、觉得烦的表情——他或许已经厌倦了各种“我们有个伟大的商业想法,你可以免费/廉价帮忙写代码吗?”的场景。 - MBA 则很热情地说“我可以做商业部分,你只要把产品做出来就好”,表现出只需要对方技术实现,自己更多做规划和市场等工作。 3. **核心含义** - 这幅图调侃创业或项目合作时,往往会出现一种“一个想出点子的人想找技术人员免费实现”的冲突。 - 对“CS 本科生”来说,似乎总有很多人来找他们做开发,而对方仅仅拿“我有一个好主意”和“我能当商业负责人”来换取他们的技术劳动。 - 对技术人员而言,常觉得“商业想法谁都会说,真正难的是把产品做出来”,所以难免会表现出不耐烦、甚至抗拒的心理。 简单来说,这幅图就是在讽刺一种常见的创业分工 stereotype:MBA 负责“想点子、谈业务”,把核心技术开发的所有压力都扔给 CS 本科生。图中男孩那种“又来了,真烦”的表情,则是对这种一边倒的合作者心态的吐槽。
宝玉
1年前
Operator 是由 OpenAI 开发的一款“AI 智能体”(AI Agent),它最大的特点在于可以像人一样使用浏览器,并能自动为你执行一些指定的网络操作。相比过去的 AI 只能回答问题或给出建议,Operator 可以进一步帮你“动手”去完成任务,比如浏览网页、点击按钮、填写表单等。 简单来说,就是你给它一个目标,它就能利用内置的浏览器自己去做事情,而不再仅仅是给你一段文字回答。 它能做什么? 填写网页表单 例如,你想在某个政府网站上提交一份申请表,但不想自己一栏栏去填写,或者表单太长需要重复输入很多信息;你只需告诉 Operator,它就能帮你填写相关内容并提交。 在线购物或订购服务 你想在超市 App 上购买日常用品,或在旅行网站上预订机票酒店、在美食平台点外卖,都可以让 Operator 代劳。它能自行浏览商品列表、添加购物车,然后在付款前再请你确认支付。 执行重复任务 如果你经常要上网做一些相似的流程,例如定期在某个网站上更新资料,或管理多个账号的信息,Operator 也可以帮你省下许多重复操作的时间。 工作原理 Operator 依托一个名为「计算机使用代理」(Computer-Using Agent, CUA)的新模型。简单来说,这个模型让 AI 能够“看到”网页界面(通过截图等方式)并“操作”网页(像使用鼠标和键盘一样点击、输入、滚动等)。 “看”:它会截取网页画面,然后从截图中提取文本和界面布局。 “点”:它像真人一样点击网页上的按钮和链接。 “输”:它可以往输入框里输入搜索词、收货地址、用户名等文本信息。 在执行任务过程中,如果遇到需要登录账户、输入支付信息或解决验证码这些环节,Operator 会请求你亲自接管控制,确保安全性和敏感信息不被泄露。 安全防护 - 需要输入敏感信息时,强制人工接管; - 在确认最终提交订单或发送邮件前,会征求用户确认; - 不允许执行过于敏感或风险极高的任务; - 可以随时删除浏览历史和对话记录,不被用于模型训练; - 对可疑的网站或恶意攻击会保持警惕,必要时会暂停操作。 虽然没有任何系统是万无一失的,但官方也在努力完善,计划通过研究预览阶段的用户反馈不断升级和改进安全策略。 不足之处 Operator 目前仍是一个早期的研究预览版,功能还不够完善: - 在非常复杂的网站上,AI 可能还会“晕头转向”或出错; - 在处理涉及多步骤、多条件的流程时,易出现失误; - 只在美国的 Pro 用户中小范围开放,普通用户可能需要再等等。 OpenAI 也表示,他们会持续改进 Operator 的稳定性与适配性,并逐步向更多用户和不同服务扩展。 API 开放 未来可能会将 Operator 所用的 CUA(计算机使用代理)模型开放给开发者,让他们打造自定义的自动化解决方案。 与 ChatGPT 的整合 后续或许会把 Operator 的功能深度融合到 ChatGPT 中,让用户在同一个界面里既能聊天也能让 AI 帮忙“动手”,真正实现一站式的智慧助理。 对绝大多数人而言,Operator 是一个新鲜而有趣的概念:不仅能回答问题,还能“亲自”帮你去完成网络上的各种操作。尽管它还在起步阶段,但它所代表的“让 AI 更实用、更贴心”的趋势引人瞩目。想象一下,当我们每天的大量琐事都能交给这样一个智能助手时,或许就能把更多时间和精力放在更重要、更有创造力的事情上。
宝玉
1年前
字节的可以直接操作图形界面的原生 GUI 智能体模型UI-TARS,类似于 Claude 的 Computer Use,可以只靠截取的界面图片就能理解并操作软件。 就像我们人类直接看手机或电脑屏幕一样,利用眼睛去“认”,再动手指去“点”。UI-TARS学会了从图片中辨别按钮、输入框、下拉菜单等各种元素,也能知道“这个图标大概率是搜索按钮”“这个区域是文本框”等信息。 UI-TARS具备四个关键能力,来模拟人类使用电脑或手机的过程: 1. 感知(Perception):从截图中识别出界面有哪些元素、它们的文字、图标、位置等。 2. 行动(Action):能够发出点击、滚动、输入文字、拖拽等具体操作指令。 3. 推理(Reasoning):类似于人类的“思考”过程,尤其是比较复杂或多步骤的任务,需要先策划好要怎么做,再一步步执行。如果中途出错,还要思考如何纠正或绕过困难。 4. 记忆(Memory):对过去的操作和获得的信息进行“记忆”,好让下一步决策更准确。 过去很多尝试,往往是把各种工具模块拼在一起——比如:先用某个模型识别界面元素,再把文字描述交给另一个大语言模型推理,然后再用一个脚本执行操作。这些拼装好的框架对特定场景有效,但迁移性差。UI-TARS 的思路是直接使用一个“大模型”进行端到端学习,把对界面截图的理解、对任务目标的分析以及生成下一步点击指令的过程整合在一起,大大提升了灵活性与稳健性。 UI-TARS 不仅有直接的“直觉式”反应(称为System-1思维),还纳入了更深度的“System-2思维”,或者说“慢思考”。它会在做出点击等动作前,先进行多步推理,比如: “先打开浏览器 -> 输入网址 -> 搜索再点击下载链接 -> 安装软件 -> 打开软件” 如果中途失败或走错,它会像人一样反思错误、再尝试新的方案,避免一直卡在同一个问题上。 至于效果,论文上说在某些测试上超过了 Claude 和 GPT-4o,但估计还是得看实际使用场景,所以还是建议有兴趣的自己试试看。 开源项目地址: Huagging face:
宝玉
1年前
一句简单的提示词就可以让 LLM 在翻译的时候更好的“意译” 以前为了让 LLM 达到更好的翻译效果,我尝试了很多方式,比如最初的先直译再意译,后来的直译、反思和意译。虽然效果好了,但是却复杂了。 现在随着模型能力增强,不再追求复杂的提示词技巧,而是尝试返璞归真,找到更好更简单的提示词方法。 我发现对于翻译的任务,有时候翻译的效果过于生硬,恰恰在于给模型的任务是“翻译”,因为是翻译,所以模型会尝试按照字面意思去翻译,尽量还原原始的格式,但也造成一些翻译过于直白和生硬。 这就像我们在学英语的时候,老师让我们去把英文翻译成中文,通常就会按照英文的单词和句式去翻译,但是如果老师让我们用中文“重写”而不是翻译,那么就可以自由的多,只需要去理解原来英文的意思,用中文的方式去重新表达,反而效果好很多。 所以我最近尝试了在做翻译任务的时候,让大语言模型去用“目标语言重写”而不是“翻译”,效果果然大不一样,结果不再拘泥于原有语言的格式语法,而是用更自然的方式表达出来。 比如说昨天 OpenAI 星际之门的公告,最后一句话: “We want to connect with firms across the built data center infrastructure landscape, from power and land to construction to equipment, and everything in between.” 如果“翻译”,就是按照字面意思: “我们希望与整个数据中心基础设施领域的企业建立联系,从电力和土地到建设再到设备,以及这其中的所有环节。” 如果“用中文重写”,就自然的多: “我们希望与整个数据中心基础设施领域的企业建立联系,包括电力和土地、建筑施工、设备等各个方面的合作伙伴。” 至于提示词,则很简单: “请尊重原意,保持原有格式不变,用简体中文重写下面的内容:” or "Please respect the original meaning, maintain the original format, and rewrite the following content in Simplified Chinese:" 翻译其他语言也类似,只要把提示词中目标语言部分换掉即可。 欢迎分享你用这个提示词成功或者失败的案例。
宝玉
1年前
宝玉
1年前
> “我很好奇现在招聘程序员,还需不需要代码能力非常强的?因为我现在确实代码都是gpt生成的。那我现在代码能力弱,背一背八股文应付面试,然后工作就一直打开gpt行不?” 这是个好问题,这也代表着大多数人对程序员这个职业的误解,程序员的日常工作并不只是写代码,也不是说代码能力强就厉害。 程序员这个职业,其实日常工作中编码占比没有那么高,开会、debug、需求分析、架构设计、搭环境脚手架、写文档、部署、线上日志分析……这些编码之外的事情要占一大半时间。所以专业的说法是“软件工程师”,表示不仅仅是写程序,而是参与了整个软件工程生命周期的工程师,也就是从需求开始,需求分析、架构设计、编码、测试、运维这一系列过程。 那么 AI 现在能替代的是哪一部分? - AI 可以根据截图和描述生成某个模块代码 - AI 可以自动补全代码 - AI 可以分析代码中的问题 - AI 可以分析提取数据 - 如果你描述得当能辅助生成一些架构设计文档 - AI 可以给你解释代码 AI 还不能替代的有很多,比如说: - 不能帮你分析需求 - 不能完成完整的项目(很小的几千行以内的可能可以) - 不能运行代码,不能帮你debug - 不能独立的根据需求做架构设计,也无法把复杂项目拆分成简单的模块 所以你想依赖 GPT 就能完成工作?如果你已经是个合格的程序员,那可以帮你省不少事情,效率可以提升不少。如果你不懂程序,有 AI 也很难!比如说: - 产品经理把需求交给你,你不知道该如何向 AI 描述清楚,把需求变成可以运行的代码 - 测试报告一个 Bug 给你,你没办法把整个项目的代码扔给 AI 去帮你分析找出 Bug - 生产环境出现故障,你不知道如何去定位,更不知道如何快速修复 - AI 生成的代码存在严重的安全隐患,而你看不出来,部署到服务器导致重大损失 所以专业程序员是可以靠 AI 提升效率的,非专业程序员想借助 AI 去干专业程序员的活,还是不太现实,至少现在还不行。