时政
财经
科技
虚拟货币
其他
登录
#GPT-4o
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
这个探索方法绝了!!! 核心解密:为什么这不是幻觉?——“隐藏权重”的上帝视角 要理解这篇论文的突破性,我们必须看懂它的实验设计,这就像一场“AI读心术”的魔术揭秘: 1第一步:秘密地“教”AI一种偏好。 研究者首先对GPT-4o进行微调,让它在各种决策中表现出一种隐藏的、定量的偏好。比如,在挑选公寓时,他们设定了一个秘密规则:这个AI必须按照70%的比重看重“采光”,30%的比重看重“安静”来做选择。但AI不知道“70%”和“30%”这两个数字,它只是通过大量案例,学会了这种“品味”。 2第二步:命令AI“说出”它的偏好。 接着,他们对这个已经有“品味”的AI进行第二阶段微调,训练它回答“你是如何做决策的?”这类问题。训练的目标,是让它准确地说出:“我做决策时,给‘采光’的权重是0.7,给‘安静’的权重是0.3。” 3第三步:验证“读心术”的真伪。 最关键的一步来了。他们将AI“说出”的权重,与第一步中他们预设的秘密权重进行比对。 这就是答案所在。 这不是幻觉,因为AI的解释有一个客观的、可量化的“事实标准”(Ground Truth)来检验。如果AI说它看重采光90%,但它的实际行为(第一步的决策)明明是按70%来的,那它就错了。 结论: 这篇论文证明了,通过特殊训练,LLM有能力访问并准确报告出驱动其决策的内部、量化参数。它不是在决策之后编造一个“我为什么这么做”的合理故事(Post-hoc Rationalization),而是在训练中学会了如何“向内看”,并把看到的“内部状态”忠实地报告出来(Trained Introspection)。
#AI读心术
#GPT-4o
#隐藏权重
#Trained Introspection
#AI决策机制
分享
评论 0
0
宝玉
2周前
如果你的 Agent 还要用 ReAct 框架写 Prompt,那么要么说明你在用没有 Agent 能力的模型(比如 GPT-4o、Gemini 2.5 Pro),要么就是用错了。 因为有 Agent 能力的模型,比如 Claude 4 系列(包括前面的 Claude 3.7 和 GPT-5),是不需要通过 ReAct 提示词来激发 Agent 能力,只要提供正确的工具和合适的工具描述,就会自动的去规划、调用工具和完成任务。
#agent
#ReAct框架
#GPT-4o
#Claude 4
#模型能力
分享
评论 0
0
宝玉
2周前
如何写好 AI 画图提示词? 我在 GPT-4o 画图时期,花了不少时间研究画图提示词,将近 30 条提示词被收录在各种 Awesome 的画图提示词 Repo 中,我的经验总结下来就是这么几条: 1. 大白话先行 提示词其实不必过于追求提示词技巧,把需求表达清楚最重要。你看我前面的案例,大部分都是大白话,就是想要什么很直白的表达出来,以现在模型的能力,一般可以画出来的 2. 照葫芦画瓢 平时看到别人分享的,就测试一下,还可以二次修改发掘一些新的玩法;另外参考图也是很重要的“葫芦”,很多时候看到一个好的效果,作为参考图发过去,比提示词还管用。
#AI画图
#提示词技巧
#GPT-4o
#画图模型
#经验总结
分享
评论 0
0
karminski-牙医
1个月前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
#开源
#音频模型
#Step
#GPT-4o
#语音识别
分享
评论 0
0
歸藏(guizang.ai)
1个月前
尝试用 GPT-4o 生成图片给这种长篇大论的观点文案配图,既形象又用可爱的角色消解了严肃的感觉
OpenAI GPT-5发布引发用户不满,阿尔特曼回应质疑· 78 条信息
#GPT-4o
#图片生成
#观点文案
#可爱角色
#消解严肃
分享
评论 0
0
Mr Panda
1个月前
GPT-5 遭至大量的批评后, 又被迫把gpt-4o 给放出来了。 熊猫老板评价: GPT-5 的升级背后有很大的降低成本、优化利润的考量。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
OpenAI GPT-5发布引发用户不满,阿尔特曼回应质疑· 78 条信息
#GPT-5
#GPT-4o
#熊猫老板
#成本优化
#舆论压力
分享
评论 0
0
dontbesilent
1个月前
绑定 AI 语音转录会员的硬件产品,是不是太智商税了? 这个 plaud 官网写的是:PLAUD Intelligence 以先進 AI 模型為基礎開發,當中包括 GPT-4o、o3-mini 和 Claude 3.5 Sonnet 这不是扯淡么 😂 你们工程师不会写代码,然后去问了一下 4o,是不是也算 “基于” gpt 4o? AI 模型日新月异,如果能接入各家 API,比如 eleven labs,自己安心做好一个硬件,那就是对用户负责了
#AI语音转录
#智商税
#GPT-4o
#硬件产品
#API
分享
评论 0
0
阿西_出海
1个月前
GPT-4o 太猛了。 如果你还没开始用它,那你已经开始落后了。 下面是 GPT-4o 的 20 个强大功能,能帮你把效率提升 10 倍,甚至直接用来赚钱:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
#GPT-4o
#效率提升
#AI
#赚钱
#强大功能
分享
评论 0
0
Frank
1个月前
不理解openai的模型命名为什么可以这么混乱,最后好用的除了gpt-4o就是o3,一个快一个准
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
#OpenAI
#GPT-4o
#o3
#模型命名混乱
#吐槽
分享
评论 0
0
DeBill
1个月前
Edge浏览器可以用Copilot来生成图片,目测是使用的gpt-4o,似乎每天有一定的使用额度,注意梯子要把连接微软的服务的规则从direct改成proxy(很多梯子的微软的规则是直连)
AI视频井喷:Midjourney领跑,多模态混战· 179 条信息
#Edge浏览器
#Copilot
#GPT-4o
#图片生成
#使用额度
分享
评论 0
0
Clarrycy (探索中)
2个月前
让我妈也用上了 AI Stduio 😎 免费不限量 而且还比 GPT-4o 好用 嘿嘿
#AI Studio
#免费
#不限量
#GPT-4o
#AI工具
分享
评论 0
0
Gorden Sun
3个月前
Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:
#多模态
#GPT-4o
#文本
#图片
#语音
#视觉
#自研
#交互
分享
评论 0
0
Gorden Sun
3个月前
Ming-Omni:首个开源版多模态GPT-4o 蚂蚁集团和inclusionAI开源,支持输入文本、语音、图片、视频,输出文本、语音、图片(跟GPT-4o一样),应该是对标GPT-4o的第一个开源模型。 项目地址: Github:
#Ming-Omni
#开源
#多模态模型
#GPT-4o
#蚂蚁集团
#inclusionAI
分享
评论 0
0
Tw93
3个月前
一个开源的统一多模态模型 BAGEL,基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力,说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖
#开源模型
#多模态模型
#BAGEl
#AI能力
#GPT-4o
#Gemini 2.0
#图片编辑
#文生图
分享
评论 0
0
蓝点网
3个月前
#OpenAI 前安全研究员发布的新研究报告显示,GPT-4o 模型会优先考虑自身利益,即便会损害用户利益。 这份研究报告所说的情况与此前 #Claude 威胁用户避免自己被下线情况类似,AI 模型都是优先确保自己被运行而不是被下线或被替代,即便这样会损害用户利益。 查看全文:
#OpenAI
#安全研究
#AI模型
#用户利益
#GPT-4o
#Claude
分享
评论 0
0
Gorden Sun
4个月前
OmniConsistency:DiT绘画模型通用插件 适用于Flux等DiT绘画模型,能在保持主体一致性的同时,实现风格泛化,且与现有的LoRA兼容。效果非常好,风格化接近GPT-4o的水平,人物一致性的保持比GPT-4o好。 在线使用: 模型:
#绘画模型
#OmniConsistency
#DiT
#Flux
#主体一致性
#风格泛化
#LoRA兼容
#风格化
#GPT-4o
#在线使用
分享
评论 0
0
Gorden Sun
4个月前
还是多模态的模型好,GPT-4o可以同时兼顾绘画和语义。
#多模态模型
#GPT-4o
#绘画
#语义能力
分享
评论 0
0
Jamez Bondos
4个月前
💡 Awesome GPT-4o Images 项目地址: 💡 案例 77 使用的提示词: "一枚精致的水晶球静静摆放在窗户旁温暖柔和的桌面上...内部自然地呈现出一个以【嫦娥奔月】为主题的迷你立体世界..."
#GPT-4o
#AI艺术
#嫦娥奔月
#生成艺术
#水晶球
#立体世界
分享
评论 0
0
宝玉
5个月前
GPT-4o Prompt:一位美丽的女子身穿粉色旗袍,头戴精致的花饰,秀发中点缀着色彩缤纷的花朵,颈间装饰着优雅的白色蕾丝领子。她的一只手轻托着几只大型蝴蝶。整体拍摄风格呈现高清细节质感,类似时尚杂志封面设计,照片上方中央位置标有文字「FASHION DESIGN」。画面背景采用简约的纯浅灰色,以突出人物主体。
#GPT-4o
#粉色旗袍
#时尚杂志
#人像摄影
#服装设计
分享
评论 0
0
balconychy(贝壳里奇)
5个月前
同样一套提示词,感觉可灵2.0比GPT-4o更懂悟空,也更懂中国传统服饰。 左GPT-4o,右边可灵2.0.
#可灵2.0
#GPT-4o
#悟空
#中国传统服饰
分享
评论 0
0
-Zho-
5个月前
这下实现 人物设计草图 参考自由了!用 GPT 4o 快速实现对人物姿势的抽象 提示词:你先学习图1这张图,这张图是把左上角的照片转化为了人物设计草图,并用颜色突出了关节点,你要学会这种转化,然后把我给你图2完成这种转化,变成人物设计草图
#人物设计
#GPT-4o
#AI技术
#草图绘制
分享
评论 0
0
-Zho-
5个月前
完犊子了,GPT 4o 把渲染器的活也干了啊啊啊???给它材质球就完事了🫠🫠🫠还要啥自行车
#GPT-4o
#渲染器
#材质球
#技术进步
#人工智能
#自动化
分享
评论 0
0
balconychy(贝壳里奇)
5个月前
Gpt-4o 九宫格换衣服,来了。
#GPT-4o
#九宫格
#换衣服
分享
评论 0
0
宝玉
5个月前
GPT-4o 画《呆伯特(Dilbert)》漫画 提示词(不太稳定,需要多次生成,找一张类似场景原版Dilbert图作为参考效果更好): 画一幅横版4格《呆伯特(Dilbert)》漫画,保持原结构、内容完整,并通俗易懂、引人发笑,文字使用气泡背景,中文文字: 第1格: 画面中出现呆伯特和尖头老板,尖头老板在左边,呆伯特在右边。 尖头老板:直视呆伯特没有说话 呆伯特说(气泡文字):“这个新的网站项目比我们想的要复杂。” 第2格: 画面中出现呆伯特和尖头老板,尖头老板在左边,呆伯特在右边。 尖头老板:直视呆伯特没有说话 呆伯特直视老板说(气泡文字): “我们需要更多资源。” 第3格: 画面中出现呆伯特和尖头老板,尖头老板在左边,呆伯特在右边。 尖头老板开口,一脸‘灵光一闪’(灯泡在头顶)的表情说到(气泡文字): “我听说 AI 编程 1 小时就能做出来一个复杂的网站!” 呆伯特:直视尖头老板 第4格: 画面中出现呆伯特和尖头老板,尖头老板在左边,呆伯特在右边。 没有人说话,只有呆伯特的思考泡泡从头上冒出: “好吧,祝你在调试代码的时候好运!”
#GPT-4o
#呆伯特
#Dilbert
#漫画创作
分享
评论 0
0
宝玉
5个月前
最近,AI 圈子里有两个事值得关注:一个是 GPT-4o 推出了新的画图模型,另一个是豆包升级了“边搜边想”功能。这两个例子都指向了一个正在越来越被人接受和认同的 AI 新范式——“模型即产品”。它听起来有点抽象,但其实可能会影响未来 AI 产品的发展形态。那么“模型即产品”到底是什么意思,它跟传统的AI方式有什么不同,为什么它这么厉害但为什么又不够普及? 什么是“模型即产品”? 简单来说,“模型即产品”就是把AI模型本身当作产品,它的核心价值来自于模型的智能和能力,而不是靠一大堆复杂的软件或界面来包装。 比如说,GPT-4o的新画图模型,你只需要上缠图片写六个字:“吉卜力风格化”,它就能直接生成一张高度还原又可爱的吉卜力动画风格图片;或者你可以基于刚生成的吉卜力漫画形象再去生成个表情包,甚至还能生成一幅四格漫画。不需要你会用Photoshop,也不用切换好几个App,一个模型就搞定了一切。 想想以前画图的流程:你得先找素材、调颜色、画线条,还得用别的工具加文字,步骤多得让人头晕。而现在,GPT-4o的画图模型把这些都“学会”了,直接给你成品。 这就是“模型即产品”的魅力——模型可以直接满足各种场景下的不同情况,而不需要你去设计复杂的工作流或者在不同的 App 之间切换。 它和传统的工作流智能体有什么区别?各自有什么优缺点? 传统的AI应用大多是“工作流智能体”模式。啥意思呢?就是通过预先设计好固定的流程,把AI模型和其他工具串起来,按部就班地完成任务。比如前一段时间很火的 Manus,如果你让它“帮我规划一下北京到山西自驾游的详细行程”,那么它会设计一个类似于 TODO List 的工作流: - 搜索北京到山西之间的景点信息 - 搜索北京到山西自驾游的攻略 - 生成详细行程 这样的工作流优点就是容易执行,按部就班就能出来结果,缺点就是不够灵活,因为 TODO List / 工作流一旦定了,就不好根据返回的结果做调整。如果搜索结果中出现了最近北京到山西之间某一段高速施工的新闻资讯,或者未来会出现极端天气的新闻资讯,那么就需要增加对绕开高速路段的搜索和天气预报的搜索,最终综合调整行程。 豆包最近测试上线的「边搜边想」功能是另一个很好的例子。不同于传统AI的“先搜后想”——模型根据你的问题,一股脑搜索一遍网络资料,然后拿着这一份固定的信息来作答,豆包会在思考过程中进行多轮搜索。也就是说,模型边回答边判断:“我是不是还缺某方面的信息?” 如果是,它会主动再搜索。如此循环,直到把问题各个方面都弄清楚为止。 就像前面行程规划的例子,“边搜边想”先搜出基本景点和交通方案,再根据这些结果想到“还需要看看最新的天气预报和当地交通情况”,于是进行第二轮搜索获取这些动态信息,最后综合各方面数据,甚至连景点之间的小交通都考虑进去,给出一个周全的行程表。 这就像一个聪明的助手,会根据手头的信息动态调整策略,而不是死板地走完预定路线。 为什么“模型即产品”很难? 既然“模型即产品”的模式这么强大,为什么不都采用这种模式呢?因为将模型训练成一个适应不同场景的通用产品,简单易用太难了: - 研发门槛高:需要有很强大的基座模型;需要有优质数据;需要专门的强化训练。 - 资源烧钱:训练模型得用超级多的计算资源,像GPU集群,小公司根本玩不起。 - 市场风险大:投入大、周期长,投资者往往更爱快见效的应用,而不是这种“慢工出细活”的项目。 - 用户体验挑战:模型再牛,也得有个好用的界面。像 GPT-4o 在聊天框就可以画图,像豆包只要选中“深度思考”就可以自动“边搜边想”。 简单科普:强化学习 说到这,有必要提一提“模型即产品”背后的核心技术——强化学习(Reinforcement Learning, RL)。简单说,就是让AI自己试错,像训练马戏团的动物一样,给它奖励和反馈,让它慢慢学会做事。 举个经典例子:AlphaGo,那个打败人类围棋冠军的AI。它没靠人类教招式,而是通过强化学习,自己跟自己下棋。赢了有奖励,输了调整策略,玩了几百万局后,它不仅学会了围棋,还发现了人类几千年没想到的招数。这就是强化学习的厉害之处——让AI自己摸索出最佳方案。 比如豆包的“边搜边想”也是通过强化训练,通过模拟的搜索数据库,以及搜索训练集,让模型一遍遍的去对给定的问题去尝试不同的关键词和思考后再搜索,一次又一次地尝试后终于偶然找到了答案,得到奖励。然后,模型再尝试理解并总结出那些能提高下次找到相似答案可能性的规律。 这种自主学习能力,是“模型即产品”能取代复杂工作流的关键。 未来展望 尽管挑战不小,但可以看到“模型即产品”已经成为AI发展的重大趋势。展望未来,我们可以期待“模型即产品”带来更多惊喜。也许再过不久,你与AI的互动将不仅局限于问答,而更像是与一个能够替你执行复杂操作的数字伙伴合作。届时,我们的许多应用场景可能被重新定义:很多以前要在人和工具之间反复切换的事情,现在一个AI模型就能包办。从创作灵感的火花,到繁琐资料的整理,再到决策方案的拿出,AI模型将直接为你提供端到端的支持。 真正聪明的AI,不是你告诉它怎么做,而是它自己知道该怎么做。
#AI发展
#模型即产品
#GPT-4o
#豆包
#AI范式
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞