宝玉
4个月前
为什么我用了那么多提示词模板甚至用了 AI 帮忙还是写不好提示词? 上次我分享了一个模拟雷军演讲的提示词,广受好评,但也有网友想知道我是怎么写出这样的提示词的。授人以鱼不如授人以渔,还是继续分享一下写好提示词的方法论。 现在流行的是上下文工程(Context Engineering),似乎很少有人提起提示词工程(Prompt Engineering),甚至很多人觉得提示词工程已经不需要了: > “模型已经那么强了,还要啥提示词工程,我写什么提示词大模型都能知道我的意思执行的很好。” 这话只是部分正确,模型是已经越来越强了,普通的需求确实只要简单的提示,但是复杂的需求还是要借助提示词工程才能写的好。 **那么什么是提示词工程?** > 提示词工程是一个过程,系统化地设计、测试、优化提示词的过程——宝玉 网上分享的提示词或者各种提示词模板,它不是提示词工程,是提示词,是静态的,产生这些提示词的过程才叫提示词工程。 举几个我最近写提示词的例子。 第一个例子就是我怎么写雷军演讲这个提示词的。 往下看之前不妨停下来想一想,如果你来写怎么写? 我是这么做的: 先用 Deep Research 去收集雷军的演讲,然后让 AI 基于 AI 的演讲结果生成一个模仿雷军演讲的提示词。 (图1) AI 生成了提示词后,我拿去测试了一下,虽然也生成了一个类似雷军风格的演讲稿,但是内容平淡无奇,结果并不怎么理想。 (图2) 我用相同的方法分别去 ChatGPT 和 Claude 上测试了,评估下来结果都不怎么好。 看来 Deep Research 搜索出来的结果并不够好,可能很多都不是雷军的演讲,只是新闻报道之类,后来正好在 X 上看到有网友转载的早年有人整理的雷军演讲风格总结,于是用它试试看: > 请帮我生成一个 Prompt,可以把输入的主题或文本生成雷军风格的演讲稿。以下是网友总结的内容作为参考: > \<tweet > > 雷军有一个非常牛的技能,就是把一件平平无奇或者并没有那么厉害的东西用数字、百分比或者其他的形容词给描述成一个听上去可望而不可即的物品。 > 发布会后,极氪高管吐槽小米汽车:小米的营销值得我们学习,但是汽车技术上小米应该向我们学习。 > 雷军的 PPT 和王家卫的电影台词有异曲同工之妙。 > 举个例子,普通人下一碗面就是我什么时候在哪下一碗什么面。但是雷军的PPT 会这样说:经我们小米的员工连续300个日夜不间断的大数据研究发现,97%的人类在早晨七点零三分56秒的时候会出现明显的饥饿感,相比较七点整,饥饿感整整提升了57%。 > 为了解决这种困扰人类几千年的饥饿感,我们小米工程师们反复研究比对发现,面粉的饱腹感要比大米的饱腹感高出21%。 > 于是我们专门找到了面粉原料小麦的5万年前的发源地 --位于中东的新月沃土,砸重金在新月沃土研制出了一款迄今为止最有饱腹感的面条。 > 那么究竟多有饱腹感呢? 比传统的面条饱腹感提升了73%。同时卡路里下降50%。 > 我们也给它取了一个好听的名字,叫小米超级空心面。同时呢,我们还联合饮用水的行业巨头--农夫山泉研制出了业内首创的泡面专用水-农夫米泉。用我们农夫米泉煮出来的面条饱腹感还能再提升11% > 9.9元3斤小米空心强饱腹感面条。(面粉成本1.6元一斤而已)免费送十包调料。总共有9款粗细不同,6种种包装颜色可选 > \</tweet> (图3) 用生成后的提示词去测试了一下,效果极好! 就这么简单! (图4)
宝玉
4个月前
OpenAI即将发布「Agent Builder」,轻松拖拽,人人都能打造AI智能体 作者:Alexey Shabanov OpenAI即将在10月6日的「开发者日」活动(Dev Day)上发布全新的「Agent Builder」(智能体构建工具),这款新工具直接对标Zapier和n8n等老牌自动化流程产品,目标用户则是希望轻松创建复杂AI智能体工作流程的开发者和团队。 像拼乐高一样,轻松搭建AI智能体 与传统的手写代码方式不同,「Agent Builder」采用了直观的可视化界面。它提供了一个拖拽式的画布,让用户能像搭积木一样,快速拼出自己想要的AI智能体。这些智能体可以涵盖客服机器人、数据增强流程、问答助手,以及文档比对工具等众多场景。 在这个画布上,有各种模块化的组件供你选择: - 逻辑模块:例如条件判断(if-else)和循环(loop)结构。 - 连接器:比如MCP(模型连接协议)等连接工具。 - 用户审批步骤:允许人工审核AI的决策。 - 安全防护模块(Guardrails):避免AI做出意外或错误的决策。 - 文件搜索与数据转换模块:轻松实现数据的检索和格式转化。 可以看出,这些功能跟目前市面上的智能化工作流工具类似,但更加深度地整合了OpenAI的AI模型,形成独特优势。 毫无疑问,这款工具最直接的受益者就是开发者、解决方案架构师,以及那些已经在使用OpenAI API的企业。 传统上,如果要开发一个AI智能体,你可能要花不少时间在繁琐的代码集成上。而现在,只需在OpenAI平台的专属界面中打开这个工具,便可通过侧边栏上的组件库,拖拽出自己的AI流程。这种方式大幅降低了门槛,即便不是专业开发人员,也能快速上手、搭建出可投入生产环境的AI应用。 此外,Agent Builder还提供了完善的测试和预览功能。在发布智能体之前,你可以轻松地进行调试、预览效果,从而快速迭代并确保其稳定性。 回头看,OpenAI最早仅仅提供单纯的模型接口(API),如今却越来越注重生态建设,围绕自身的AI模型打造丰富的配套工具和平台。「Agent Builder」正是这一生态战略的重要一环,它帮助用户自主快速地创建AI智能体,并保证智能体与OpenAI自家的模型、基础设施、以及安全机制紧密集成。 当然,自动化流程市场竞争早已十分激烈。不过,OpenAI显然有自己的底气。他们押宝的是: - 与自身AI模型的深度整合; - 极佳的用户体验; - 可能推出的预制逻辑模块(例如安全防护机制)。 这些都是OpenAI与竞争对手们拉开差距的关键。
宝玉
4个月前
话说OpenAI这帮天才疯子,自从用ChatGPT把地球人的脑子搅成一锅粥后,就觉得不过瘾。他们憋了个大招,名叫Sora 2。这玩意儿是什么?你可以把它想象成一个装满了全世界影碟店、图书馆和动漫网站的硬盘,然后被喂给了一个患有“创作欲过剩症”的人工智能。 他们没跟任何人打招呼,迪士尼的米老鼠、任天堂的马力欧、派拉蒙的派大星……有一个算一个,全被“请”进了这个数字炼丹炉。然后,伴随着山姆·奥特曼(Sam Altman)那标志性的、仿佛在说“我没做错任何事,只是世界还没准备好”的微笑,Sora 2上线了。市场宣传? aggressive得像是要把传单塞进你家猫的嘴里。 发布后的72小时,互联网疯了。 这不是文艺复兴,这是文艺复“疯”。皮卡丘在CVS里零元购的监控录像,比《教父》的点击率还高;海绵宝宝梳着希特勒的小胡子在汉堡王发表演讲;盖酷家庭的彼得·格里芬和马力欧兄弟因为一根水管的所有权问题在《南方公园》的街头大打出手。 这玩意儿在48小时内,像一枚文化核弹一样登顶了App Store。OpenAI内部,香槟开得比代码跑得还快。 > “老板,成了!用户正在疯狂地解构人类所有的文化IP!” > “很好,”奥特曼可能正用Sora生成自己登上时代周刊封面的视频,“一切尽在掌握。” > 新一轮融资光速到位,估值直接飙到$5000亿。这笔钱烫手得,仿佛是用全世界法务的眼泪铸成的金条。 然而,狂欢的BGM还没结束,门外就传来了敲门声——不,是撞门声。迪士尼那群穿着西装的哥斯拉、纽约时报的笔杆子军团,以及所有你能想到的内容巨头,带着山一样高的律师函,把OpenAI的服务器围得水泄不通。 面对十面埋伏,你以为奥特曼会道歉?会赔款?太天真了。他玩了一招“乾坤大挪移”,玩得比张无忌还溜。 “快!把责任这坨烫手山芋扔出去!” 一夜之间,一个紧急更新推送给了所有用户。打开Sora 2,一个硕大的弹窗怼到你脸上,字体大到像是怕你瞎。内容翻译过来就是: * 《你好,背锅侠》协议: * 你! 尊贵的用户,你发誓你上传的任何提示词、图片、想法,都不涉及任何有版权的东西。马力欧是你自己画的,皮卡丘是你家后院抓的。 * 你! 尊贵的用户,你保证你拥有你生成内容的所有权利,迪士尼找你麻烦,跟我们OpenAI没半毛钱关系。 * 滥用? 呵呵,你的Sora和ChatGPT账号将一起人间蒸发,永世不得超生。 与此同时,奥特曼慢悠悠地发了篇博客,标题是:“请负责任地使用我们的魔法 :)”。那感觉,就像一个把军火库钥匙交给疯子的军火商,然后贴心地说:“亲,别伤到自己哦。” 至于版权方?“我们提供了‘退出’机制嘛,”OpenAI的公关说,“你们可以一个一个一个一个一个地把你们的角色申请排除出去。” 米老鼠、唐老鸭、高飞、艾莎、安娜、辛巴……迪士尼法务部看着那长得像电话黄页的角色列表,默默地点了根烟。 用户们也不是傻子。当他们看清这份“卖身契”后,愤怒了。社交媒体上,“#DeleteSora”运动风起云涌。 他们点下“删除账户”按钮,以为能潇洒离去。 然后,真正的恐怖降临了。 一个提示框跳了出来:“删除Sora账户将永久删除您的整个OpenAI账户,包括ChatGPT、API访问权限以及所有历史数据。此操作不可逆,您的邮箱和手机号将被永久拉黑。” 所有人都愣住了。 想走?可以。把你过去几年和ChatGPT培养的感情、你赖以为生的API接口、你所有的数据和心血,统统烧掉。你不仅要离开这个公园,你还要在公园的黑名单上挂一辈子。 你以为你在用他的产品,其实你已经成为了他产品的一部分,一个无法移除的、自带法律责任的插件。你被困住了,被你自己的数据和习惯困在了这个数字牢笼里。 这已经不是“LOL, LMAO even”了。 这剧本,连好莱坞的编剧看了都得给奥特曼递根烟,说一句:“哥们,还是你们硅谷会玩儿。”
宝玉
4个月前
如果你在为公司现有业务集成 AI Agent,或者迁移到 AI Agent,我自己的一点思考供参考: 1. 如果你流程的路径很确定并且效率很高,那么也许你只需要在原有流程上集成一些 AI 功能就可以,并不一定要变成 Agent 通常 Agent 没有固定流程,依赖于用户的输入来由 LLM 决策调用什么工具 2. 为 Agent 去重新设计新的工具而不是让 Agent 去用现有的工具 通常公司内部已经有一些成熟的工具,但这些工具是为人设计的而不是 Agent 设计的,当你去做 Agent,要重新为 Agent 做新的工具,什么工具是最适合 Agent 就去打造什么工具,但不是因为你有什么工具所以让 Agent 去用什么工具。 另外 Agent 的工具要融入上下文管理: - 描述要清晰具体,让 LLM 知道什么场景该使用什么工具 - 输入参数要明确:即让 LLM 知道该传什么参数,又要让工具有足够的数据可以执行 - 输出结果要清晰明了,不要有太多无关上下文内容,因为工具输出的结果会加入 Agent 的上下文,有些很长的输出可以保存到外部文件按需读取 3. 不要为了 MCP 而用 MCP MCP 很流行,但它的优势是让你的工具可以兼容不同的模型,不同的 AI 平台,如果你的工具只有你自己的 Agent 用,没必要做成 MCP,普通的命令行、脚本、API 都可以。你看 Claude Code 的十几个工具没有一个是 MCP。 4. 工具数量不要太多,基于功能可以适当拆分子智能体 由于工具的描述、输入和输出都占用上下文空间,所以工具数量不能太大,否则会影响 Agent 的能力。 如果你的工具实在太多,可以考虑按照功能拆分成子智能体,让一个子智能体负责某些特定功能的任务,它可以拥有自己的工具集,主 Agent 则负责调度这些子 Agent,为子 Agent 提供独立的上下文,并收集子 Agent 返回的结果。 如果子 Agent 或者工具的结果之间有依赖关系,不要并行执行任务,否则会搞乱上下文 5. 需要为 Agent 重新设计交互 你的软件也许已经有一套交互方式了,但当你去做 Agent 的时候,要重新思考什么是最佳交互方式。 Agent 的交互和传统的软件交互是不一样的,通常以对话为主,用户可以通过对话框输入文本信息,上传文档、图片等作为上下文一部分,信息则更像聊天对话,实时可以看到 AI 返回文本、工具调用结果等。 还可以是有一个主要工作区,类似于传统的软件交互,侧边栏是 Agent 聊天对话。 在 Agent 交互方面,ChatGPT、Claude、Cursor、Notion、Gemini 等产品都有很多交互可以参考,多借鉴前沿主流的 Agent 交互方式
宝玉
4个月前
Sora 产品动态 1 by Sam Altman 随着Sora上线,我们开始快速从用户、版权方和其他利益相关方的反馈中学习和改进。尽管上线前我们进行了大量讨论,但有了真正的产品后,我们才能跳出理论,踏实地解决实际问题。 我们很快会做出两项改变(未来当然还有更多): 首先,我们将给版权方提供对人物角色创作更精细的控制权,这一点类似于此前对肖像权的“用户主动选择”(opt-in)模式,但控制更加细致。 我们听到不少版权方对这种全新的“互动式粉丝创作”(interactive fan fiction)感到非常兴奋,认为这是一种非常有价值的新型互动方式。但同时,他们也希望明确控制自己的角色如何被使用,甚至选择完全不允许任何使用。我们相信版权方会各自尝试不同策略,而我们将统一标准,把决定权交到版权方手中(当然,我们希望这个产品足够优秀,吸引越来越多的版权方主动参与进来)。 在实现的过程中,可能会出现一些边缘情况,有少数违规的内容通过了审核,技术上的完善需要持续迭代。尤其值得一提的是,我们注意到来自日本的惊人创意表现力,用户与日本内容之间的深厚联结令我们非常惊叹! 其次,我们必须开始考虑视频生成带来的成本问题。我们发现每个用户的创作量远超预期,而许多视频的受众其实非常有限。因此,我们计划尝试一种收入分享模式:用户创作的视频如果涉及版权方的角色,我们会与版权方分享相应的收入。具体的模式还需要不断试验和调整,但我们会尽快启动这项计划。我们希望,这种全新的互动带来的价值甚至超过收入分成本身,当然,能同时实现价值和收益最好不过了。 在未来一段时间,我们将高速迭代、快速调整,这种感觉让我想起了ChatGPT最初上线时的情况。我们会做出一些明智的决定,也一定会犯下一些错误,但我们会及时听取反馈,迅速修正问题。我们计划首先在Sora内部快速迭代,然后再将成功经验逐渐推广到我们的其他产品中去。
宝玉
4个月前
如果你想开发一个 Agent,无论你是打算做 CLI 还是做 Web 还是 Windows,都可以考虑使用 Claude Agent SDK,和 Claude Code 共享的底层代码,Claude Code 就是基于它之上加了个 CLI 的 UI,也就是说你完全可以基于它写一个 Claude Code 出来。 我昨天帮朋友花了几个小时就实现了个简单的 Agent,实现了输入提示词,就可以基于某个没训练的 Design System 写一套 UI 出来。 他写的这个 Agent 原理很简单,就是把这套设计系统的所有 Markdown 文档(几百个)放到一个它可以访问的目录,然后在 Systme Prompt 里面引导它去检索这个文档目录。 当用户输入提示词或者 Screenshot 要做一个 UI,Agent 就根据提示词规划可能要用到的组件,然后用 SDK 自带的 GREP 工具去检索文档库找到这些组件的 API,最后基于收集到的信息用这个 Design System 组件生成页面。 这个 SDK API 很简单,但很强大,你不止是可以用它内置的工具(Task、Grep、WebFetch 等等),你还可以添加自己的工具,还可以用 MCP。并且它可以把整个交互的结果通过 API 让你可以获取到原始的请求和返回消息,这样你可以自己实现一套比 CLI 更好用的交互 UI。 当然这个局限也有: 1. 只能用 Claude 模型兼容的 API,如果你想用 GPT-5 之类模型,估计效果不会太好 2. 只支持 Python 和 TypeScript 3. Tokens 消耗飞快 如果你只是做前期的 POC,强烈建议你试试。
宝玉
4个月前