宝玉

统计数据

913

文章

0

粉丝

0

获赞

20656

阅读

10个月前

Anthropic推出每月200美元的Claude高级订阅计划 Anthropic公司周三宣布推出一项高价的AI聊天机器人订阅服务，命名为Claude Max。该服务定位为对标OpenAI每月200美元的ChatGPT Pro订阅计划，相比Anthropic现有每月20美元的Claude Pro订阅，Max计划将提供更高的使用额度，并优先获得Anthropic最新AI模型与功能。不过，Anthropic的新计划在定价上略显复杂，分为两档： - 每月100美元的Max订阅，提供的使用量上限比Claude Pro高5倍。 - 每月200美元的Max订阅，提供的使用量则高达Claude Pro的20倍。前沿AI模型开发商正不断寻找增加收入的新途径，而向AI重度用户提供高价订阅服务似乎是个不错的方向。就在OpenAI推出ChatGPT Pro两个月后，其年化收入据称就增长了3亿美元。如果Anthropic此次推出的Max计划同样成功，将为公司带来巨大助力。 Anthropic产品主管斯科特·怀特（Scott White）表示，公司并不排除未来会推出更加昂贵的订阅方案。值得注意的是，目前Anthropic仍未推出类似OpenAI ChatGPT Pro的无限制使用方案。当记者询问Anthropic未来是否可能推出每月500美元的Claude订阅时，怀特表示：“我们始终保持探索多种可能性的态度。”他补充道，用户的反馈会持续影响Anthropic的产品路线图。为了应对前沿AI模型研发所需的巨大成本，Anthropic正积极探索多种新的收入渠道，其中之一就是专门面向大学客户的Claude for Education。该产品将为高校提供有针对性的功能与服务。 Anthropic并未透露截至目前的订阅销售情况。不过怀特表示，公司最新的Claude 3.7 Sonnet模型引发了“巨大的市场需求”。Claude 3.7 Sonnet是Anthropic首个专注于推理的AI模型，使用的算力远超传统模型，能更可靠地回答复杂问题。

#Anthropic #Claude Max #订阅服务 #ChatGPT Pro #AI模型 #AI技术

10个月前

提示词：3D Q版弥勒佛形象

#3D设计 #Q版 #弥勒佛 #艺术 #宗教文化

10个月前

苹果紧急出动5架飞机运送iPhone，只为躲避特朗普关税上涨苹果暂时不用在美国涨价了！据《印度时报》报道，为了避开美国总统特朗普于4月5日生效的新一轮关税，苹果公司在3月底紧急从印度和中国派出5架货机，满载iPhone等产品飞往美国。报道指出，这批紧急货物是在3月的最后一周内分3天运抵美国的，目前已为苹果在美国的仓库提供了足够维持数月销售的库存。一位消息人士告诉《印度时报》： “这些以较低关税进口的库存，短期内能让苹果避开新关税下的高额成本。” 此次突击行动使苹果避免了立即上调产品售价。苹果绝大多数产品来自中国、越南和印度，而从4月9日起，从这些国家进口到美国的商品将分别征收54%（中国）、46%（越南）和26%（印度）的高额关税。具体而言，中国的关税本次增加34%，此前已经征收了20%，因此累计达到了54%。据罗森布拉特证券分析师估算，新关税实施后，苹果手机的售价最高可能会飙升到2300美元。目前苹果最昂贵的手机iPhone 16 Pro Max的最高售价为1599美元。不止苹果，任天堂也提前行动。据《金融时报》报道，任天堂一半以上的美国市场硬件都来自越南和柬埔寨，该公司今年1月份曾在短短5天内紧急发货超过38.3万台Switch 2游戏机，以躲避即将来临的关税风险。

#苹果 #关税 #特朗普 #iPhone #美国 #印度 #中国 #国际贸易

10个月前

斯坦福 2025 年 AI 指数报告人工智能对社会的影响从未如此深远。在斯坦福大学以人为本人工智能研究院（HAI），我们相信人工智能将成为21世纪最具颠覆性的技术。然而，要确保AI带来的好处能公平分配，我们必须谨慎引导其发展。AI指数报告提供了全球范围内最全面、最权威的数据洞察，已成为各国政府、全球媒体和行业巨头广泛信赖的资源。它为决策者、企业家和公众提供严谨客观的分析，阐明人工智能的技术进步、经济影响和社会作用。核心观点与发现 1. AI在高难度测试中的表现持续提升 2023年，研究人员推出了MMMU、GPQA、SWE-bench三个新的基准测试，以检验先进AI系统的极限。一年后，这些测试的表现显著提升，分别提高了18.8个百分点、48.9个百分点和67.3个百分点。此外，AI在生成高质量视频方面取得重大突破，在某些编程任务中，即使时间受限，AI代理的表现甚至超过了人类。 2. AI日益融入日常生活从医疗到交通，人工智能正迅速从实验室走进人们的生活。2023年，美国食品药品监督管理局（FDA）批准了223种AI医疗设备，而2015年只有6种。在道路交通领域，自动驾驶汽车不再是实验性产物：美国Waymo每周提供超过15万次无人驾驶服务；中国百度Apollo Go自动驾驶出租车正以更亲民的价格在多个城市提供服务。 3. 企业纷纷布局AI，投资和应用热情高涨，研究表明生产力大幅提高 2024年，美国私营部门对AI的投资达到1091亿美元，接近中国93亿美元投资的12倍，英国45亿美元的24倍。其中生成式AI尤其受到追捧，全球吸引投资339亿美元，同比上升18.7%。AI在企业中的普及率迅速上升，2024年高达78%的企业已应用AI，而2023年这一比例仅为55%。同时，大量研究证实AI提高了生产效率，并帮助缩小了劳动力技能差距。 4. 美国AI模型数量仍居首位，但中国快速缩小性能差距 2024年，美国机构推出了40个值得关注的AI模型，大幅领先于中国（15个）和欧洲（3个）。尽管美国仍领先于数量，中国模型在性能方面已迅速追赶，主要测试如MMLU和HumanEval上的表现差距由2023年的两位数缩小至2024年接近平齐。同时，中国仍在AI学术论文发表量与专利申请方面保持领先，此外中东、拉美和东南亚地区也纷纷涌现出值得关注的模型。 5. 负责任AI生态逐渐成熟，但发展不均衡与AI相关的事故显著增加，但主流企业对负责任AI（Responsible AI, RAI）的评估仍不普遍。不过，HELM Safety、AIR-Bench、FACTS等新兴基准为评估AI安全性和事实准确性提供了有效工具。企业在RAI领域的行动与认识仍存在差距，但各国政府表现出更高的积极性：2024年，包括OECD、欧盟、联合国和非盟在内的国际组织，纷纷推出透明性和可信度等负责任AI核心原则框架。 6. 全球对AI的乐观态度上升，但地区间差异明显在中国（83%）、印尼（80%）、泰国（77%）等国，大多数人认为AI利大于弊；而在加拿大（40%）、美国（39%）、荷兰（36%）等地，这一比例仍然较低。不过，相比2022年，许多曾经较为悲观的国家，乐观情绪明显增强，其中德国和法国增长了10%，加拿大和英国增长了8%，美国增长了4%。 7. AI日益高效、经济和易于使用得益于性能逐渐强大的小型模型，从2022年11月至2024年10月，达到GPT-3.5同等表现的AI推理成本下降了超过280倍。在硬件方面，每年成本降低约30%，能效每年提升40%。同时，开源模型与闭源模型间的性能差距也迅速缩小，一年内从8%下降到1.7%。种种趋势正迅速降低人们使用高端AI的门槛。 8. 各国政府加强AI监管与投资 2024年，美国联邦机构出台了59项AI相关法规，较2023年翻了一倍以上，涉及的机构数量也增加了一倍。全球75个国家提及AI的立法数量自2023年增加了21.3%，自2016年以来增加了九倍。同时，各国政府在AI领域的投资规模显著：加拿大承诺投入24亿美元；中国推出475亿美元半导体专项资金；法国宣布投资1090亿欧元；印度承诺投资12.5亿美元；沙特的“超越计划”（Project Transcendence）投资高达1000亿美元。 9. AI与计算机科学教育迅速扩展，但普及与准备不足问题依然存在全球有三分之二的国家已提供或计划提供中小学阶段计算机科学（CS）教育，较2019年增加了一倍，其中非洲和拉丁美洲的进展最快。美国计算机学科的本科毕业生人数在过去10年增长了22%。不过，非洲许多国家受基础设施如电力供应不足的限制，教育普及仍困难重重。在美国，81%的中小学计算机教师认为AI应纳入基础教育，但真正具备教学能力的不足一半。 10. AI产业高速发展，但领先优势缩小 2024年，近90%的重要AI模型由企业发布，远超2023年的60%，而高引用率的学术研究仍以学术界为主。模型规模仍在快速增长：训练算力每5个月翻一倍，数据集规模每8个月翻一倍，能源使用量每年翻一倍。然而，排名前列模型之间的性能差距不断缩小，排名第一与第十名的分数差距从11.9%缩减到5.4%，而前两名之间仅差0.7%。AI技术前沿竞争日益激烈，也日趋拥挤。 11. AI因对科学领域的影响而获重要奖项 AI在科学领域的重要性逐步获得认可：诺贝尔物理奖与化学奖分别表彰了深度学习领域的开创性工作及蛋白质折叠领域的AI应用，而图灵奖则奖励了强化学习的突破性成果。 12. AI仍难以解决复杂推理问题尽管AI模型在国际数学奥林匹克竞赛类任务表现突出，但在PlanBench等复杂推理基准测试中仍表现欠佳。即便存在理论上的正确解法，模型通常无法稳定解决逻辑推理问题，限制了其在高风险、高精准要求环境下的有效性。

#斯坦福大学 #AI指数报告 #人工智能 #社会影响 #HAI #数据洞察 #决策支持

10个月前

根据照片上的内容打造一款细致精美、萌趣可爱的3D渲染双人收藏摆件工具：Sora 或者 GPT-4o 注意： 1. 需要上传一张两人照片 2. 根据需要适当修改提示词提示词：根据照片上的内容打造一款细致精美、萌趣可爱的3D渲染收藏摆件，装置在柔和粉彩色调、温馨浪漫的展示盒中。展示盒为浅奶油色搭配柔和的金色装饰，形似精致的便携珠宝盒。打开盒盖，呈现出一幕温暖浪漫的场景：两位Q版角色正甜蜜相望。盒顶雕刻着“FOREVER TOGETHER”（永远在一起）的字样，周围点缀着小巧精致的星星与爱心图案。盒内站着照片上的女性，手中捧着一束小巧的白色花束。她的身旁是她的伴侣，照片上的男性。两人都拥有大而闪亮、充满表现力的眼睛，以及柔和、温暖的微笑，传递出浓浓的爱意和迷人的气质。他们身后有一扇圆形窗户，透过窗户能看到阳光明媚的中国古典小镇天际线和轻柔飘浮的云朵。盒内以温暖的柔和光线进行照明，背景中漂浮着花瓣点缀气氛。整个展示盒和角色的色调优雅和谐，营造出一个奢华而梦幻的迷你纪念品场景。尺寸：9:16

#3D渲染 #双人收藏摆件 #萌趣设计 #珠宝盒展示 #浪漫温馨

10个月前

发现 Gemini 虽然不能根据 URL 给你全文获取或者翻译网页内容，但是可以帮你摘要并翻译网页内容，这点可能是得益于 Google 的爬虫能抓取到这些网站的数据。

#Gemini #Google爬虫 #网页摘要 #翻译功能

10个月前

把人物变成拍立得照片并且突破二维相片边框工具：Sora 或 GPT-4o 提示词（需要上传一张半身或者全身单人照）：将场景中的角色转化为3D Q版风格，放在一张拍立得照片上，相纸被一只手拿着，照片中的角色正从拍立得照片中走出，呈现出突破二维相片边框、进入二维现实空间的视觉效果。

#人物变成拍立得 #3D Q版风格 #二维相片

10个月前

将人像变成可爱 3D 微缩立体模型工具：Sora 或 GPT-4o 提示词（需要上传一张清晰人脸的个人照片）： 3D微缩立体模型场景，以超大头部比例的可爱 Q 版卡通造型呈现。

#3D模型 #Q版卡通 #人像微缩 #可爱造型

10个月前

把照片变成 3D Q版风格工具：Sora 或 GPT-4o 提示词（需要上传一张照片）：将场景中的角色转化为3D Q版风格，同时保持原本的场景布置和服装造型不变。

#3D图像处理 #Q版风格 #AI绘图 #照片转化

10个月前

提示词：把这张照片设计成一个3D风格的Q版APP图标，保留人物特征，风格要可爱一些，人物要稍微超出图标背景边框。

#3D设计 #Q版图标 #APP设计 #可爱风格 #人物特征

10个月前

手绘风格的信息图卡片提示词（可以替换最后两行文字为你自己的主题和要点）：创作一张手绘风格的信息图卡片，比例为9:16竖版。卡片主题鲜明，背景为带有纸质肌理的米色或米白色，整体设计体现质朴、亲切的手绘美感。卡片上方以红黑相间、对比鲜明的大号毛笔草书字体突出标题，吸引视觉焦点。文字内容均采用中文草书，整体布局分为2至4个清晰的小节，每节以简短、精炼的中文短语表达核心要点。字体保持草书流畅的韵律感，既清晰可读又富有艺术气息。周边适当留白。卡片中点缀简单、有趣的手绘插画或图标，例如人物或象征符号，以增强视觉吸引力，引发读者思考与共鸣。整体布局注意视觉平衡，预留足够的空白空间，确保画面简洁明了，易于阅读和理解。 “做 IP 是长期复利坚持每日更新，肯定会有结果，因为 99% 都坚持不了的！”

#手绘风格 #信息图 #设计

10个月前

绘制一张色彩鲜艳、手绘风格的北京旅游手账插画，仿佛由一位充满好奇心的孩子用蜡笔精心创作。画面整体用柔和温暖的黄色背景，搭配鲜明的红色、蓝色、绿色等亮丽颜色，营造温馨而充满童趣的氛围。插画中间绘制一条蜿蜒曲折的旅行路线，用箭头和虚线标记出各个经典地点，沿途包括： - “第一站：吃碗老北京炸酱面！” - “第二站：登顶景山，看紫禁城全景！” - “第三站：逛逛神秘的故宫，注意：人超多！” - “第四站：吃个冰糖葫芦，逛进胡同！” - “第五站：去天坛，和爷爷奶奶一起晨练！” - “第六站：到北海公园划船赏白塔！” - “第七站：天安门前自拍打卡！” - “第八站：去长城爬一爬，做个小勇士！” - “最终站：尝一口地道的北京烤鸭，再买点纪念品回家！” 插画周围布满趣味元素： - 拿着冰糖葫芦、吃着冰淇淋的开心小朋友； - 指示牌：“小心迷路！”，“注意人流！”； - 天安门、故宫、长城等经典地标用简单童趣风格画出； - 贴纸式标语：“北京旅行记忆已解锁！”、“北京美食大冒险！”； - 可爱的北京特色美食小图标（炸酱面、冰糖葫芦、烤鸭）； - 欢乐的感叹：“原来北京这么好玩！”、“我还要再来一次！” 整体风格可爱而有趣，构图饱满生动，文字采用简洁可爱的手写体，仿佛带人进入一段童真又难忘的北京旅行回忆！

#北京旅游 #手账插画 #童趣手绘

10个月前

对于陆三金 “懂一点但不是非常多，是用 AI 的甜蜜点。” 观点的一点补充：“什么都懂一点借助 AI 并不能变身成专业人士” 因为 AI 的作用主要是两点： 1. 提升能力下限（对于普通人和懂一点的人） 2. 提升效率（对于专业人士尤其明显）但是 AI 的结果是不稳定的（幻觉），哪怕99%的结果都是对的，但依然有概率会生成错误的或者质量差的结果，所以一定要对生成的结果去进行甄别和筛选，才能得到真正专业的结果，尤其对于容错率低的领域更是如此，比如画画你可以 6 个手指头没关系，但是医学报告要是错了出人命都有可能。所以对于懂一点点的非专业人士，依然无法甄别 AI 生成的结果是好是坏，从而无法得到专业的结果。假如说一个领域专业度是100分，懂一点的人也就是50-60分的水平，也就能让 AI 能发挥到60-80分的水平，并且分辨不出 AI 70分以上水平的差异。相反对于80分以上的专业人士来说，如果积极拥抱，那么通过任务分解是可以做出80分以上的结果，并且可以大幅提升效率。举例来说，你懂一点程序开发，那借助 AI 依然只能写出原型稍微好一点的程序，但稍微复杂一点就很难控制了，但是专业的软件工程师可以借助 AI 大幅提升效率，并且保证软件的质量。

#AI #能力提升 #专业人士 #效率 #结果甄别 #生成质量 #幻觉 #陆三金 #专业与非专业 #人工智能

10个月前

有朋友问我 Sam Altman 这两条推文啥意思，其实我也不懂，但是 AI 一定比我懂，让 AI 解读就好了： Sam Altman 这两条推文是在幽默地调侃一种非常常见的工程师或开发者习惯，即当某个项目或模型多次尝试失败后，给出的命名方式往往越来越荒谬和冗长，例如：第一条推文：when the run name ends like this you know it's surely going to work this time -restart-0331-final-final2-restart-forreal-omfg3 他调侃说，当你的项目版本名字以如此冗长、复杂和绝望（final-final2、forreal、omfg3）命名时，你肯定认为这一次一定会成功。第二条推文（明显是对第一条的补充和进一步自嘲）：ok that one didn't work but -restart-0331-final-final2-restart-forreal-omfg3-YOLO is gonna hit, i know it 他说上一个版本没成功，但紧接着用更加夸张的命名（加上了一个“YOLO”，即“You Only Live Once”的缩写，表示一种豁出去的态度）来表达一种自嘲式的乐观，“这次肯定能成”。这种命名方式实际上是在吐槽软件开发或AI模型训练中的经典情况：在屡次尝试和失败后，程序员会通过不断给版本名加“final”、“forreal”、“omfg”、“YOLO”等夸张的修饰来缓解挫败感并表达内心渴望一次成功的心态。总之，Sam Altman是在以幽默的方式分享技术开发过程中大家都有共鸣的“开发者日常”场景。

#Sam Altman #推文 #开发者日常 #项目命名 #AI解读

10个月前

一位父亲在Reddit上说，他儿子成绩非常优秀： - 全校476名学生中排名第1； - SAT取得1580分（满分1600分）； - 修了18门AP课程，全部拿到满分5分。但却被申请的所有常春藤名校的计算机专业拒绝，唯一录取他的只有马萨诸塞大学阿默斯特分校（UMass Amherst）。最近正是大学录取季，这篇帖子成为了Reddit上r/ApplyingToCollege版块的周排行榜第一。美国 CS 专业竞争激烈程度可见一斑。当然，有人质疑帖子真实性，但如果你认真读过这位父亲的详细回复，可信度比较高。据他说，儿子是四分之一韩裔，四分之三白人。 --- 原帖内容：我儿子除了州立旗舰大学外，其他申请的学校全部拒绝了他，我震惊于现在大学录取竞争的激烈程度。我的大儿子申请的大学里，只收到了本州的州立旗舰大学——马萨诸塞大学阿默斯特分校的录取通知，其他全都拒绝了他。他是我见过最聪明、最自觉、最努力的孩子。他是全年级476名学生中的状元，考了18门AP课程，全都拿了满分5分，SAT考了1580分。他创建了一个针对小学和初中生的在线游戏平台，每月活跃用户达18万人，去年广告收入3100美元。他连续三年夏天都在波士顿大学教授手下做研究，并作为第一作者发表了两篇学术论文。他还连续两年在超市兼职，并在当地一家科技公司获得带薪实习机会。他是学校计算机社团主席和数学竞赛团队副主席。他通过了11门本应由大三、大四学生修的大学课程，成绩全都是A，还两次进入了美国数学邀请赛（AIME）。此外，他还是戴维森青年学者协会（智商145以上儿童组织）的成员。尤其难得的是，这些成绩基本上都是他自己努力得来的。他并不是那种“机器人”式、只知道听父母安排的孩子——他热爱计算机，想要进入科技行业，而我本人对这个行业一无所知。我真的非常震惊。我一直听说，现在的大学录取比我当年申请时要激烈很多，但我可能之前没有真正意识到这种激烈程度。我出生于阿拉巴马州北部一个小镇上，我们那个时候根本没人考虑过大学的事情，只有成绩最顶尖的学生才会去想这个问题。高中毕业后，我在北阿拉巴马大学（UNA）踢了一阵橄榄球，毕业后进了华尔街一家顶级银行的大宗商品部门，从此一直在金融界工作。当年我刚工作的时候，雇佣员工并不看重你上的是哪所大学，只要你表现得聪明、得体，就可以获得机会。我的同事中有人甚至没有大学学历，有人是来自我从未听说过的州立大学，也有人毕业于哈佛。当然，上常春藤大学在面试环节会占点优势，但并不存在绝对的门槛。可如今，我负责招聘的候选人，无一例外都来自常春藤或者类似等级的知名高校（比如波士顿大学），而且他们经常给我一种傲慢、自以为是的感觉。如今，我们公司根本不会考虑面试像我这样来自UNA的毕业生了。我对此感到深深的不安，更为我儿子感到担忧。不过，儿子告诉我，科技行业跟金融行业并不一样，即使他在马萨诸塞大学阿默斯特分校读书，将来也能获得顶级科技公司的面试机会。但尽管如此，他仍然非常难过，我也不知道该怎么安慰他。我觉得，他和周围的人或许过于在意大学的表面名气，我已经这么告诉过他，他也明白道理，但他还是感到很失望。

#大学申请 #常春藤名校 #学术成绩 #录取季

10个月前

Perplexity AI CEO Aravind Srinivas 说：跟AI一起写代码就像当年乔布斯和沃兹尼亚克的搭档组合：你扮演的是乔布斯，负责提出清晰的愿景和整体布局，而你的AI编程助手就像是沃兹尼亚克，负责具体的实现和技术执行。 “在这个新时代里，那些拥有审美眼光、思维清晰、擅长解决问题的人，将真正脱颖而出。”

#PerplexityAI #人工智能 #代码助手 #乔布斯 #沃兹尼亚克 #技术执行 #新时代 #解决问题

10个月前

这才是现实世界中的 AI 编程开发经历：3-4小时就完成了原型开发，20小时研究AI写了什么，因为 AI 写的太快到最后也没能把服务运行起来

#AI编程 #现实世界 #原型开发 #服务运行 #开发经历

10个月前

GPT-4o 画《呆伯特（Dilbert）》漫画提示词（不太稳定，需要多次生成，找一张类似场景原版Dilbert图作为参考效果更好）：画一幅横版4格《呆伯特（Dilbert）》漫画，保持原结构、内容完整，并通俗易懂、引人发笑，文字使用气泡背景，中文文字：第1格：画面中出现呆伯特和尖头老板，尖头老板在左边，呆伯特在右边。尖头老板：直视呆伯特没有说话呆伯特说（气泡文字）：“这个新的网站项目比我们想的要复杂。” 第2格：画面中出现呆伯特和尖头老板，尖头老板在左边，呆伯特在右边。尖头老板：直视呆伯特没有说话呆伯特直视老板说（气泡文字）： “我们需要更多资源。” 第3格：画面中出现呆伯特和尖头老板，尖头老板在左边，呆伯特在右边。尖头老板开口，一脸‘灵光一闪’（灯泡在头顶）的表情说到（气泡文字）： “我听说 AI 编程 1 小时就能做出来一个复杂的网站！” 呆伯特：直视尖头老板第4格：画面中出现呆伯特和尖头老板，尖头老板在左边，呆伯特在右边。没有人说话，只有呆伯特的思考泡泡从头上冒出： “好吧，祝你在调试代码的时候好运！”

#GPT-4o #呆伯特 #Dilbert #漫画创作

10个月前

最近，AI 圈子里有两个事值得关注：一个是 GPT-4o 推出了新的画图模型，另一个是豆包升级了“边搜边想”功能。这两个例子都指向了一个正在越来越被人接受和认同的 AI 新范式——“模型即产品”。它听起来有点抽象，但其实可能会影响未来 AI 产品的发展形态。那么“模型即产品”到底是什么意思，它跟传统的AI方式有什么不同，为什么它这么厉害但为什么又不够普及？什么是“模型即产品”？简单来说，“模型即产品”就是把AI模型本身当作产品，它的核心价值来自于模型的智能和能力，而不是靠一大堆复杂的软件或界面来包装。比如说，GPT-4o的新画图模型，你只需要上缠图片写六个字：“吉卜力风格化”，它就能直接生成一张高度还原又可爱的吉卜力动画风格图片；或者你可以基于刚生成的吉卜力漫画形象再去生成个表情包，甚至还能生成一幅四格漫画。不需要你会用Photoshop，也不用切换好几个App，一个模型就搞定了一切。想想以前画图的流程：你得先找素材、调颜色、画线条，还得用别的工具加文字，步骤多得让人头晕。而现在，GPT-4o的画图模型把这些都“学会”了，直接给你成品。这就是“模型即产品”的魅力——模型可以直接满足各种场景下的不同情况，而不需要你去设计复杂的工作流或者在不同的 App 之间切换。它和传统的工作流智能体有什么区别？各自有什么优缺点？传统的AI应用大多是“工作流智能体”模式。啥意思呢？就是通过预先设计好固定的流程，把AI模型和其他工具串起来，按部就班地完成任务。比如前一段时间很火的 Manus，如果你让它“帮我规划一下北京到山西自驾游的详细行程”，那么它会设计一个类似于 TODO List 的工作流： - 搜索北京到山西之间的景点信息 - 搜索北京到山西自驾游的攻略 - 生成详细行程这样的工作流优点就是容易执行，按部就班就能出来结果，缺点就是不够灵活，因为 TODO List / 工作流一旦定了，就不好根据返回的结果做调整。如果搜索结果中出现了最近北京到山西之间某一段高速施工的新闻资讯，或者未来会出现极端天气的新闻资讯，那么就需要增加对绕开高速路段的搜索和天气预报的搜索，最终综合调整行程。豆包最近测试上线的「边搜边想」功能是另一个很好的例子。不同于传统AI的“先搜后想”——模型根据你的问题，一股脑搜索一遍网络资料，然后拿着这一份固定的信息来作答，豆包会在思考过程中进行多轮搜索。也就是说，模型边回答边判断：“我是不是还缺某方面的信息？” 如果是，它会主动再搜索。如此循环，直到把问题各个方面都弄清楚为止。就像前面行程规划的例子，“边搜边想”先搜出基本景点和交通方案，再根据这些结果想到“还需要看看最新的天气预报和当地交通情况”，于是进行第二轮搜索获取这些动态信息，最后综合各方面数据，甚至连景点之间的小交通都考虑进去，给出一个周全的行程表。这就像一个聪明的助手，会根据手头的信息动态调整策略，而不是死板地走完预定路线。为什么“模型即产品”很难？既然“模型即产品”的模式这么强大，为什么不都采用这种模式呢？因为将模型训练成一个适应不同场景的通用产品，简单易用太难了： - 研发门槛高：需要有很强大的基座模型；需要有优质数据；需要专门的强化训练。 - 资源烧钱：训练模型得用超级多的计算资源，像GPU集群，小公司根本玩不起。 - 市场风险大：投入大、周期长，投资者往往更爱快见效的应用，而不是这种“慢工出细活”的项目。 - 用户体验挑战：模型再牛，也得有个好用的界面。像 GPT-4o 在聊天框就可以画图，像豆包只要选中“深度思考”就可以自动“边搜边想”。简单科普：强化学习说到这，有必要提一提“模型即产品”背后的核心技术——强化学习（Reinforcement Learning, RL）。简单说，就是让AI自己试错，像训练马戏团的动物一样，给它奖励和反馈，让它慢慢学会做事。举个经典例子：AlphaGo，那个打败人类围棋冠军的AI。它没靠人类教招式，而是通过强化学习，自己跟自己下棋。赢了有奖励，输了调整策略，玩了几百万局后，它不仅学会了围棋，还发现了人类几千年没想到的招数。这就是强化学习的厉害之处——让AI自己摸索出最佳方案。比如豆包的“边搜边想”也是通过强化训练，通过模拟的搜索数据库，以及搜索训练集，让模型一遍遍的去对给定的问题去尝试不同的关键词和思考后再搜索，一次又一次地尝试后终于偶然找到了答案，得到奖励。然后，模型再尝试理解并总结出那些能提高下次找到相似答案可能性的规律。这种自主学习能力，是“模型即产品”能取代复杂工作流的关键。未来展望尽管挑战不小，但可以看到“模型即产品”已经成为AI发展的重大趋势。展望未来，我们可以期待“模型即产品”带来更多惊喜。也许再过不久，你与AI的互动将不仅局限于问答，而更像是与一个能够替你执行复杂操作的数字伙伴合作。届时，我们的许多应用场景可能被重新定义：很多以前要在人和工具之间反复切换的事情，现在一个AI模型就能包办。从创作灵感的火花，到繁琐资料的整理，再到决策方案的拿出，AI模型将直接为你提供端到端的支持。真正聪明的AI，不是你告诉它怎么做，而是它自己知道该怎么做。

#AI发展 #模型即产品 #GPT-4o #豆包 #AI范式

10个月前

问：什么是 RAG？ RAG（检索增强生成，Retrieval-Augmented Generation）是一种结合了信息检索和生成式人工智能的技术。通俗地讲，它先通过检索，从数据库或互联网等外部知识源中找到与问题相关的内容，再利用生成模型（如GPT）基于这些内容生成答案。这种方式让模型不仅依靠训练时学习到的知识，还能实时获取最新信息，从而更准确地回答问题。举个简单的例子：假设你问AI：“2025年奥运会在哪里举办？”普通生成模型可能无法回答，因为训练数据仅截至2023年。但使用RAG技术，AI会先去检索最新的网络或知识库内容，确认“2025年奥运会将在巴黎举行”，然后再生成具体回答。这种技术让AI变得更可靠、更具实时性。 RAG的核心优势在于既能发挥生成模型灵活表达的能力，又能利用检索保证信息的准确性和时效性，适用于问答系统、客服机器人、知识助手等场景，是未来人工智能发展的重要方向之一。

#RAG #检索增强生成 #信息检索 #生成式人工智能 #GPT #生成模型 #外部知识源 #实时获取信息

10个月前

“一个完全的提示词新手可能要经历的提示词认知路径: 从清晰表达认识到结构化表达的“高效性”熟练掌握结构化表达后，再次回到简洁的表达。详细来说: 一个新手可能最初会把大模型当做“搜索引擎”或者“问答机器人”，询问的问题过于简单和具体，大模型并不能发挥它带给用户超预期回答的能力。经历一个阶段关于“清晰表达、充分提供背景信息、提供示例”的学习之后，提示词学习者学会了结构化表达，此时可能陷入过度结构化或者把提示词看做某种标准框架的阶段，例如各类结构化提示词模板。再经过这个阶段之后，学习者会慢慢领悟到如何“压缩”用清晰简洁的表达直接描述需求(但这是建立在对大模型能力的信任和原理的了解之上的) 初始简洁是因为不知道如何表达高阶简洁是因为知道什么不需要表达初始简洁缺乏关键信息，高阶简洁保留了所有必要信息高阶简洁建立在对AI能力边界的理解上，知道什么可以省略，什么必须说明” —— by 小七姐

#提示词 #认知路径 #大模型 #AI

10个月前

搞定了在 GPT-4o 中一次生成多张图，一段提示词生成完整绘本，一会发布提示词

#GPT-4o #生成多张图 #提示词 #绘本

10个月前

Sam Altman 被 OpenAI 解雇事件背后的真实故事秘密、误导与破裂的信任。一场关于科技界最红 CEO 被迅速驱逐又戏剧性回归的内幕。 2023 年 11 月中旬一个温暖的晚上，亿万富翁风险投资家 Peter Thiel（彼得·蒂尔）在洛杉矶艺术区一家叫做 YESS 的前卫日本餐厅里，为自己的丈夫举办了一场生日派对。这家餐厅的建筑历史悠久，原本是一家拥有百年历史的银行。坐在蒂尔旁边的，是他的朋友 Sam Altman（山姆·奥特曼）。十几年前，Thiel 曾投资过 Altman 的第一个风险投资基金，后来又一直充当这位年轻企业家的导师。Altman 如今是人工智能革命的标志性人物，担任 OpenAI 公司的 CEO。自从 OpenAI 在 2022 年 11 月推出爆火的聊天机器人 ChatGPT 后，整个科技股市在接下来的一年中一路飙升，创下了数十年来的最佳表现之一。然而，此刻 Thiel 却忧心忡忡。早在结识 Altman 之前，Thiel 曾资助过另一位痴迷人工智能的天才 Eliezer Yudkowsky（埃利泽·尤德科夫斯基），并赞助了他的研究机构，目标是确保未来任何超越人类的 AI 对人类本身保持友好。2023 年 3 月，Yudkowsky 曾在《时代》杂志上公开警告：如果不立即停止当前的 AI 研究热潮，“地球上每个人都会死”。 “你根本不知道 Eliezer 给你们公司一半的人灌输了怎样的思想，”Thiel 在晚餐上严肃地提醒 Altman，“你应该更认真地对待这件事。” Altman 摆弄着面前的素食盘子，努力克制着不翻白眼。这已经不是 Thiel 第一次警告他公司被所谓的“EA 人士”（有效利他主义者）渗透了。有效利他主义（EA）原本关注的是如何解决全球贫困问题，但最近却突然把重点转向如何避免人工智能的失控导致人类灭亡。 Thiel 曾多次预言：“这些整天念叨 AI 安全问题的人，最终会毁掉整个 OpenAI。” Altman 回应道：“之前的马斯克确实有点这样，但我们不是把马斯克赶走了吗？”他所指的是 2018 年 OpenAI 与 Elon Musk（埃隆·马斯克）的那场混乱分裂。当时马斯克甚至形容研发人工智能等同于“召唤魔鬼”。与此同时，OpenAI 的近 800 名员工正享受着公司快速腾飞的红利。他们即将迎来一次价值高达 860 亿美元的股份回购机会，买一栋海景度假屋的梦想似乎近在眼前。所以在 Altman 看来，实在没什么可慌的。 38 岁的 Altman 刚刚度过了职业生涯中最耀眼的一年。这一年里，他成了家喻户晓的人物，到世界各国与总统和总理们频繁会面，更重要的是，他兑现了硅谷最看重的承诺——交付了一项足以改变世界的新技术。然而，就在这两位好友兼投资伙伴在洛杉矶最时髦餐厅的华丽屋顶下庆祝时，OpenAI 六人董事会中有四位成员却在秘密举行视频会议，正认真讨论要不要将 Sam Altman 解雇掉——不过，原因倒并不是 Thiel 所担心的那个“有效利他主义势力”。这篇报道基于对数十位亲历者的采访，讲述了一场硅谷商业史上最离奇的大戏之一——全球最火科技公司 OpenAI 的 CEO 突然被解雇，又在几天后戏剧性地被重新聘用。这场风暴的核心人物，是一个性格善变的领导者：他一方面用充满想象力的科技愿景激励着身边的每个人，另一方面，他神秘的行事风格和令人困惑的误导又不断让周围的人陷入不安和迷惑。 OpenAI 从一开始就注定是一家与众不同的科技公司，它由一个非营利性质的董事会进行管理，这个董事会的职责不是向股东负责，而是要对“全人类”负责。年初，CEO Sam Altman 曾经震惊了美国国会，当时他在听证会上宣誓作证，坦白自己在自己亲手创办的这家公司里并不拥有任何股份。为了成为董事会成员，Altman 同意了这样一种前所未有的安排：董事会的多数成员必须与公司没有任何经济利益关系。他在 2023 年 6 月对彭博电视台说：“董事会是可以解雇我的。这一点很重要。” 但在实际运营中，董事会渐渐感到挫败，因为他们发现真正掌控全局的人仍然是 Altman 本人。过去一年里，董事会一直在纠结一个问题——究竟该增加哪一位人工智能安全领域的专家进入董事会。董事会曾经面试过一位名叫 Ajeya Cotra 的 AI 安全专家，她任职于有效利他主义（EA）慈善机构“Open Philanthropy”。但这件事一直没有进展，原因很大程度上在于 Altman 以及他的联合创始人 Greg Brockman（也是董事会成员）的拖延和阻挠。Altman 则提出了自己中意的人选。 Airbnb CEO Brian Chesky 本来也在 Altman 提名的董事候选人之列，他回忆道：“那时候董事会内部隐隐存在权力斗争，有一种说法是：只要是 Sam Altman 推荐的人，那这个人肯定会忠于 Sam，所以其他董事肯定会否决掉。” Sam Altman 在 2023 年 11 月 6 日举行的 OpenAI 首届开发者大会上演讲，这距离他突然被董事会解雇不到两周。 2023 年初，亲 Altman 阵营的三名董事会成员因各种利益冲突先后辞职，让情况进一步恶化。这导致非营利董事会仅剩下六位成员，而他们掌控着背后这家如日中天的商业 AI 公司。这六个人分别是：Altman 本人，他的亲密盟友 Brockman，另一位联合创始人 Ilya Sutskever，以及三位独立董事：Adam D’Angelo（问答网站 Quora 的 CEO，曾在 Facebook 担任高管）、Helen Toner（乔治城大学安全与新兴技术中心战略主管，曾任职于慈善机构 Open Philanthropy）、Tasha McCauley（前科技公司 CEO，同时也是英国 EA 慈善组织 Effective Ventures 董事）。 2022 年夏天，董事会成员们观看了一场关于最新的 AI 技术“GPT-4”的内部演示，这是一种性能强大的人工智能模型，甚至能轻松通过美国大学先修课程（AP）的生物考试。亲眼目睹这项技术后，董事会对于公司治理和监督 Altman 行为的担忧立刻加剧了。 Helen Toner 表示：“类似 ChatGPT 和 GPT-4 这样的新技术，让董事会突然意识到公司所涉猎的东西影响越来越大了。倒也不是说明天世界就完蛋了，但董事会确实得好好履行职责才行。” 其实，此时的 Toner 和 McCauley 对 Altman 已经有些不信任了。为了在产品发布前评估可能的风险，OpenAI 和微软共同建立了一个联合安全委员会（微软是 OpenAI 的主要支持者之一，能优先使用 OpenAI 的技术）。在 2022 年冬季的一次会议上，委员会正在讨论 GPT-4 模型里三个略显争议的新增功能的发布事宜，Altman 当时声称，这三个新功能都已经获得联合安全委员会的批准。然而，Toner 提出了质疑，要求提供证据，结果调查后发现：实际上只有一个功能真正通过了批准。几乎在同一时间，微软悄悄地在印度启动了一次对尚未公开的 GPT-4 的测试。这可是划时代的 AI 技术第一次在未经联合安全委员会批准的情况下，就偷偷溜到了外面的真实环境里试验。而更让人吃惊的是，OpenAI 的董事会对此竟然完全不知情！董事会的独立董事们之所以知道了这件事，只是因为某次长达六小时的董事会会议结束后，其中一位董事在走廊上，被一名 OpenAI 的员工拦下来私下告诉他的。讽刺的是，在刚刚过去的漫长会议上，Altman（CEO）和 Brockman（总裁）竟然对此只字未提。接着，在 2023 年夏天的一个晚上，OpenAI 的一名董事在一场晚宴上偶然听到有人在抱怨“OpenAI 创业基金”的事。这个基金是 2021 年 OpenAI 专门成立，用来投资与 AI 相关的创业公司，最初明确说是由 OpenAI 自己“管理”。然而，这位董事却听到了惊人的抱怨，说这个基金赚来的利润并没有进入 OpenAI 投资人的口袋。这消息对董事会来说是全新的，董事会立即向 Altman 问清楚情况。经过好几个月的询问，董事们才慢慢发现，这个基金居然是 Altman 个人名下拥有的！一开始，OpenAI 的高管们辩解说，这样做只是“出于税务上的原因”，后来才慢慢改口说，这么操作是为了节省时间，是一种临时的安排。OpenAI 还强调 Altman 从基金中并没有收取任何费用或利润，这种安排相当不寻常。这些荒谬的解释让独立董事们无法接受，他们觉得这已经不仅仅是行政上的疏忽，而是一系列“故意欺瞒”的一部分。回想起之前发生的一些类似事件，董事们开始怀疑，这些事根本就是 Altman 有意隐瞒。比如，就连 2022 年秋天 OpenAI 发布 ChatGPT 这种震惊世界的产品时，董事会竟然也没有提前得到消息。当时 ChatGPT 被包装成一个技术研究的“预览版”，但它后来迅速火爆全球。 2023 年 9 月末的一天，OpenAI 的首席科学家 Ilya 突然给董事 Toner 发邮件，问她第二天是否方便聊聊。这举动本身就非常奇怪，因为两人平常几乎从不私下交流，只在董事会上碰面。在电话里，Ilya 欲言又止，犹豫了半天才挤出一句提示：“你应该多跟 Mira 聊聊。” Mira Murati 在 2022 年 5 月被晋升为 OpenAI 的首席技术官（CTO），从那之后，她实际上一直在负责公司每天的运营。当 Toner 联系上她之后，Murati 描述了一些令人意外的细节，她直指 Altman 的管理风格“有毒”，多年来一直在公司内部制造麻烦。而且，她还提到了 Altman 与总裁 Brockman 之间的特殊关系——Brockman 名义上向她汇报，但每当她试图管束 Brockman 时，Brockman 都会越过她直接去找 Altman，这使得她几乎无法正常开展工作。几个月前，Murati 曾直接找 Altman 提出这些问题，但 Altman 却反而把人力资源主管拉到两人的一对一会议上，连续几个星期都是这样，直到 Murati 不得不明确告诉 Altman，她并不打算把自己的意见反馈给董事会。 Toner 随后又回去找首席科学家 Ilya 了解更多情况。Ilya 明确表示，他早就对 Altman 失去了信任，原因有很多，包括 Altman 喜欢故意制造高管之间的矛盾冲突。2021 年时，Ilya 曾经专门组建了一支团队，规划了 OpenAI 未来的研究方向，但没过几个月，另一个研究员 Jakub Pachocki 又开始做起了几乎一样的事。后来两个团队被强行合并，而当 Ilya 转而专注于 AI 安全时，Pachocki 却顺势接手了这个合并后的团队。之后，Altman 更直接提拔 Pachocki 成为研究部门主管，私底下却同时向两人都承诺“未来会让他们各自领导公司的研究方向”，结果导致团队几个月里效率极其低下。 Ilya 对 Altman 的不满已积蓄已久，他甚至早已等待着董事会内部形势允许的时候，能够正式取代 Altman 的 CEO 职位。在随后的几周里，Murati 和 Ilya 非常谨慎地行动，生怕被 Altman 发现。他们私下逐一和几位独立董事聊了聊，暗中通气。正因为双方几乎每天都交流，这才让董事们逮到了 Altman 撒谎的铁证。同样是在 10 月，董事会成员 Toner 发表了一篇文章，直言批评 OpenAI 的安全策略。Altman 看到后暴跳如雷。他私下告诉 Ilya，说另一名董事 McCauley 认为，Toner 显然应该因为写这篇文章而从董事会辞职。当 Ilya 把这番话转述给 McCauley 时，她震惊不已——自己明明从来没说过这话。这段时间以来，Ilya 和 Murati 一直在秘密搜集 Altman 的问题证据。如今，Ilya 终于决定出手。他用 Gmail 的限时自毁邮件功能，将两份 PDF 文件发给了三位独立董事（Toner、McCauley 和 D’Angelo）。其中一份是专门揭发 Altman 的，另一份则直指 Brockman。关于 Altman 的那份材料列举了几十个他涉嫌撒谎和有毒行为的例子，大部分都附有 Murati 提供的 Slack 聊天截图作为证据。比如有一条截图里，Altman 告诉 Murati，公司法务部门认为 GPT-4 Turbo 发布时不用经过联合安全委员会的审查。但 Murati 去问公司首席律师，律师却表示自己根本没说过这样的话。而关于 Brockman 的材料则集中揭露了他涉嫌霸凌员工的行为。 Ilya 强调，如果要采取行动，就必须尽快动手。于是，在 2023 年 11 月 16 日星期四下午，Ilya 和三名独立董事迅速进行了一次视频会议。他们在会上投票决定解雇 Altman。同时，他们也清楚 Murati 若要当临时 CEO，绝不可能接受向 Brockman 汇报，因此董事们一并把 Brockman 也从董事会撤掉了。投票结束后，独立董事们还对 Ilya 坦白，他们其实一直担心他是 Altman 派来的卧底，专门测试他们的忠诚度。当天晚上，Murati 正在外地参加一个会议，四位董事突然打电话过来，告诉她第二天就会正式解雇 Altman，并邀请她临时接任 CEO。Murati 接受了邀请，但她问董事们到底为什么解雇 Altman，董事们却拒绝透露。 Murati 随即追问：“你们有提前通知微软 CEO Satya 吗？”她很清楚，微软 CEO Satya Nadella 的态度对于双方合作至关重要。董事们竟然还没通知微软，最后决定由 Murati 在公开宣布消息前的最后一刻通知微软。第二天，Altman 被突击解雇的新闻瞬间轰动全球。但董事会却对员工和公众没有任何合理解释，除了笼统地说 Altman 对董事会“不够坦诚”。周五晚上，OpenAI 董事会和高管团队接连开了好几场越来越激烈的会议。Murati 此时开始觉得董事会的做法太不专业，事前根本没有对解雇 Altman 可能带来的严重后果做充分准备。会议中，Murati 甚至带领整个高管团队，给董事会下了最后通牒：要求董事会在 30 分钟内清楚说明解雇 Altman 的真正理由，否则就集体辞职。董事会这时陷入了两难：他们无法透露，实际上是 Murati 亲手向他们提供了关于 Altman 管理问题的绝大部分证据。本来他们还指望 Murati 能够安抚员工情绪，结果现在她却成了带头造反的人。与此同时，Altman 阵营迅速散播出另一种说法，声称这次事件其实是 Ilya 策动的一场“政变”。他们说，Ilya 一直不满 Altman 提拔了 Pachocki，董事 Toner 则不满 Altman 试图逼她辞职，这才联手赶走 Altman。 Ilya 对此震惊不已。他原本以为 OpenAI 的员工们会为他们的决定而喝彩。然而到了周一早晨，OpenAI 几乎所有员工都签署了一封公开信，威胁称如果 Altman 不立即复职，他们将集体辞职。联名信上赫然有 Murati 和 Ilya 自己的签名。局势已然非常明显：要阻止公司彻底崩溃，唯一的办法就是请回 Altman。 2023 年 10 月，Altman 和 Murati 曾共同在舞台上演讲。（改编自 Keach Hagey 所著新书《The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future》（《乐观主义者：Sam Altman、OpenAI 与创造未来的竞赛》），本书将由 W.W. Norton 出版社于 2025 年 5 月 20 日出版。版权所有归作者 Keach Hagey。）

#SamAltman被解雇 #OpenAI #科技界内幕 #PeterThiel #风险投资 #企业治理 #信任破裂

10个月前

Vibe Coding vs Debug Vibe Coding （提示词见评论）

#Vibe Coding #Debug Vibe Coding #编程 #软件开发

10个月前

GPT-4o 的新的图像模型生成原理：自回归模型究竟是什么？为什么它如此惊艳？你可能听说过OpenAI最新发布的GPT-4o能够流畅生成高质量图片，但与过去大热的Midjourney、DALL·E、Stable Diffusion这些“扩散模型（Diffusion Models）”不同，GPT-4o的图像生成采用了一种看起来简单却充满魔力的方式：自回归模型（autoregressive model）。那么，自回归到底是什么意思？GPT-4o又如何做到逐像素、逐区域地生成清晰图片？什么是自回归图像生成？我们先从“自回归”这个词开始拆解： • “自”（Auto）意味着自动，模型不需要额外干预； • “回归”（Regressive）意味着模型会根据之前已经生成的信息去预测后续的信息。打个简单比方：你正在手绘一幅画，你不会一下子就画出完整的画面，而是会从一小块区域逐渐向外扩展，每一笔都是基于之前你所画的内容来决定下一笔的走向。自回归模型的核心思想与这个绘画过程类似。具体到GPT-4o，就是： • 模型从顶部开始，依次往下逐行生成画面； • 在每一步，模型参考之前已生成的像素信息，预测下一个像素（或像素组）的内容； • 如此不断循环，逐步描绘出完整图像。这与扩散模型完全不同，扩散模型就像是先把纸上泼满了颜料（噪声），再一步一步地擦去不需要的部分，直到剩下一幅清晰的画。为什么要用自回归而非扩散？扩散模型虽然出色，但有明显缺点： • 一开始全是噪点，无法在初期看到图像的任何轮廓。 • 在生成过程中很难逐步“引导”，更多的是一次性成像。 • 难以在过程中进行细致的修改与编辑。而GPT-4o自回归的生成方式有两个明显优势： 1. 更强的连贯性（Coherence）由于每一步生成时都会参考之前生成的内容，GPT-4o对图像的连贯性控制更精细。就像我们写文章时先列个提纲，再逐段写下来，每句话都与上文紧密相连，自然更加流畅。举个生活化的例子：假如你请AI画一只猫，如果用扩散模型，它可能一开始呈现的只是模糊的一团，猫咪的形态在很后期才逐渐明朗；但GPT-4o则会在最开始就勾勒出猫咪的大致轮廓，然后再慢慢细化每个细节，比如眼睛、耳朵、毛发，这种方式让生成过程更“人性化”。 2. 更精准的编辑能力自回归的另一个巨大优势是可以精准地实现局部修改。因为图像是按顺序生成，用户可以随时介入修改局部的部分，AI随后生成的区域都会根据这个修改的内容自动适应。比如：假设AI正从上到下生成一张风景画，你在画到中途突然想让天空中多一些云彩，你只需要在生成天空的阶段做出指示，AI就可以在下一步中立即调整，生成符合你期望的云朵形状，而不必重新从头生成整幅图像。从实际的生成过程看GPT-4o （图3，来源：Peter Gostev）透过ChatGPT的网页端，我们可以用浏览器自带的开发者工具，观察到一些很有趣的细节： • 从上到下逐行生成 GPT-4o生成图像的过程就像绘画时从顶部开始逐渐填充内容。 • 初始轮廓迅速显现，随后逐步精细化这类似于画家先快速勾勒出构图的大致轮廓，随后逐渐增加细节。 • 局部已生成的区域可能会被反复调整即使局部区域已经生成，后续的生成过程依旧可能对这些区域作出较大调整，这表明模型有明显的全局连贯性优化策略——就像作家写完一段话后，也可能反复修改前面的文字，以使全文更加流畅。 • 生成简单图像明显更快如果你只是要求生成一颗简单的苹果，模型几乎瞬间就能呈现；但如果你希望生成一幅复杂场景（如喧嚣的城市街景），过程会明显更久，中途还会显示多个“中间图像”，说明GPT-4o内部可能还利用了一种称为“投机解码”（speculative decoding）的技术，提前预测多个步骤的结果并进行修正，从而提升效率。 • 额外的背景移除机制 GPT-4o似乎具备某种外部背景去除能力：最初它会显示“伪透明”的方格背景，而真正的背景移除在生成结束后才完成，这个步骤明显是模型外部追加的后处理程序，而非GPT-4o本身固有的特性。技术难点与实现的奇迹 OpenAI成功实现这种模型的最大难度，是如何在自回归生成方式中兼顾生成质量和速度。自回归模型通常要求庞大的参数量和计算资源来保持图像质量，而GPT-4o竟然做到既快速又高质，让不少业内人士感叹： “GPT-4o竟然用自回归方式做出了扩散模型一样甚至更好的效果，实在令人难以置信。” 这一实现，背后必然包含了极其高效的模型设计和优化算法。对于普通人，这意味着什么？ GPT-4o的成功代表着AI图像生成技术迈入了一个全新的阶段： • 我们可以更轻松地进行交互式设计，让AI快速而精准地生成想要的内容； • 它将使图片编辑变得更加直观，就像与AI一起逐步绘画，随心所欲地调整每个细节； • 甚至可能引领未来的视觉创意领域，让创作者不再拘泥于一次性的图片生成，而是享受随时交互、随时调整的自由创作。最终，这种技术的突破既是计算机科学的成就，也是在提示我们： “技术真正的进步，并非为了替代人类，而是为了给每个人手中都放上更好的‘画笔’，以更自由的方式描绘属于自己的世界。” 或许 GPT-4o 告诉我们的，不只是AI能够做到什么，而是我们真正想要如何运用它。

#GPT-4o #自回归模型 #图像生成 #OpenAI #扩散模型

...