#GPT-4o

1个月前

在 8 个月后，Nano Banana Pro 终于也能像当初 GPT-4o 一样玩转各种可爱风格了！ Nano Banana Pro = 可爱 3D emoji！ 🛁🛁🛁 ZHNO｜创意系列｜Nano Banana Pro 【Prompt】⬇️

nanobanana平台助力个人形象照生成，专业形象照引发热议· 107 条信息

#Nano Banana Pro #GPT-4o #3D emoji #可爱风格 #创意系列

1个月前

在医院拍完胸部 X 光后，经常还需要排队等待拿结果给医生查看分析，折腾下来基本都要一个多小时。最近在 GitHub 上看到的 MedRAX 这款开源的医学影像分析智能体，正在试图改变我们这种传统方式。它集成了多个专业的胸部 X 光分析工具，基于 LangChain 和 LangGraph 框架构建，使用 GPT-4o 作为核心大模型。整合了视觉问答、图像分割、病灶定位、报告生成、疾病分类等 7 大类专业工具，无需额外训练即可智能调用这些工具完成复杂的医学影像分析任务。 GitHub：主要特性： - 视觉问答：使用 CheXagent 和 LLaVA-Med 进行复杂的医学影像理解和推理； - 精准分割：采用 MedSAM 和 PSPNet 模型识别解剖结构； - 病灶定位：通过 Maira-2 模型在影像中精确定位病变位置； - 报告生成：基于 SwinV2 Transformer 自动生成详细的医学诊断报告； - 疾病分类：利用 DenseNet-121 检测 18 种病理类别； - 综合评估：提供包含 2,500 个复杂医学查询的 ChestAgentBench 基准测试。克隆仓库并安装依赖后，运行即可启动 Gradio 界面使用，需要配置 OpenAI API 密钥，支持本地和云端部署。

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#MedRAX #医学影像分析 #GPT-4o #LangChain #开源

2个月前

GPT 4o要回来了。新版GPT，更加人性化，像真人一样回复你，类似4o 并且ChatGPT将在验证成年身份的情况下，可以提供色情内容😍

ChatGPT Plus用户抗议权益缩水，萨姆奥尔特曼亲自道歉· 28 条信息

#GPT-4o #新版GPT #人性化 #色情内容 #ChatGPT

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3个月前

这个探索方法绝了！！！核心解密：为什么这不是幻觉？——“隐藏权重”的上帝视角要理解这篇论文的突破性，我们必须看懂它的实验设计，这就像一场“AI读心术”的魔术揭秘： 1第一步：秘密地“教”AI一种偏好。研究者首先对GPT-4o进行微调，让它在各种决策中表现出一种隐藏的、定量的偏好。比如，在挑选公寓时，他们设定了一个秘密规则：这个AI必须按照70%的比重看重“采光”，30%的比重看重“安静”来做选择。但AI不知道“70%”和“30%”这两个数字，它只是通过大量案例，学会了这种“品味”。 2第二步：命令AI“说出”它的偏好。接着，他们对这个已经有“品味”的AI进行第二阶段微调，训练它回答“你是如何做决策的？”这类问题。训练的目标，是让它准确地说出：“我做决策时，给‘采光’的权重是0.7，给‘安静’的权重是0.3。” 3第三步：验证“读心术”的真伪。最关键的一步来了。他们将AI“说出”的权重，与第一步中他们预设的秘密权重进行比对。这就是答案所在。这不是幻觉，因为AI的解释有一个客观的、可量化的“事实标准”（Ground Truth）来检验。如果AI说它看重采光90%，但它的实际行为（第一步的决策）明明是按70%来的，那它就错了。结论：这篇论文证明了，通过特殊训练，LLM有能力访问并准确报告出驱动其决策的内部、量化参数。它不是在决策之后编造一个“我为什么这么做”的合理故事（Post-hoc Rationalization），而是在训练中学会了如何“向内看”，并把看到的“内部状态”忠实地报告出来（Trained Introspection）。

#AI读心术 #GPT-4o #隐藏权重 #Trained Introspection #AI决策机制

3个月前

如果你的 Agent 还要用 ReAct 框架写 Prompt，那么要么说明你在用没有 Agent 能力的模型（比如 GPT-4o、Gemini 2.5 Pro），要么就是用错了。因为有 Agent 能力的模型，比如 Claude 4 系列（包括前面的 Claude 3.7 和 GPT-5），是不需要通过 ReAct 提示词来激发 Agent 能力，只要提供正确的工具和合适的工具描述，就会自动的去规划、调用工具和完成任务。

#agent #ReAct框架 #GPT-4o #Claude 4 #模型能力

3个月前

如何写好 AI 画图提示词？我在 GPT-4o 画图时期，花了不少时间研究画图提示词，将近 30 条提示词被收录在各种 Awesome 的画图提示词 Repo 中，我的经验总结下来就是这么几条： 1. 大白话先行提示词其实不必过于追求提示词技巧，把需求表达清楚最重要。你看我前面的案例，大部分都是大白话，就是想要什么很直白的表达出来，以现在模型的能力，一般可以画出来的 2. 照葫芦画瓢平时看到别人分享的，就测试一下，还可以二次修改发掘一些新的玩法；另外参考图也是很重要的“葫芦”，很多时候看到一个好的效果，作为参考图发过去，比提示词还管用。

#AI画图 #提示词技巧 #GPT-4o #画图模型 #经验总结

karminski-牙医

4个月前

阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频，输出也是音频，可以实现对话)。帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的，对话能力差一点，稍后为大家带来评测！模型地址：

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#开源 #音频模型 #Step #GPT-4o #语音识别

歸藏(guizang.ai)

4个月前

尝试用 GPT-4o 生成图片给这种长篇大论的观点文案配图，既形象又用可爱的角色消解了严肃的感觉

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑· 158 条信息

#GPT-4o #图片生成 #观点文案 #可爱角色 #消解严肃

4个月前

GPT-5 遭至大量的批评后，又被迫把gpt-4o 给放出来了。熊猫老板评价： GPT-5 的升级背后有很大的降低成本、优化利润的考量。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑· 158 条信息

#GPT-5 #GPT-4o #熊猫老板 #成本优化 #舆论压力

4个月前

绑定 AI 语音转录会员的硬件产品，是不是太智商税了？这个 plaud 官网写的是：PLAUD Intelligence 以先進 AI 模型為基礎開發，當中包括 GPT-4o、o3-mini 和 Claude 3.5 Sonnet 这不是扯淡么 😂 你们工程师不会写代码，然后去问了一下 4o，是不是也算 “基于” gpt 4o？ AI 模型日新月异，如果能接入各家 API，比如 eleven labs，自己安心做好一个硬件，那就是对用户负责了

#AI语音转录 #智商税 #GPT-4o #硬件产品 #API

4个月前

GPT-4o 太猛了。如果你还没开始用它，那你已经开始落后了。下面是 GPT-4o 的 20 个强大功能，能帮你把效率提升 10 倍，甚至直接用来赚钱：

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#GPT-4o #效率提升 #AI #赚钱 #强大功能

4个月前

不理解openai的模型命名为什么可以这么混乱，最后好用的除了gpt-4o就是o3，一个快一个准

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#OpenAI #GPT-4o #o3 #模型命名混乱 #吐槽

4个月前

Edge浏览器可以用Copilot来生成图片，目测是使用的gpt-4o，似乎每天有一定的使用额度，注意梯子要把连接微软的服务的规则从direct改成proxy（很多梯子的微软的规则是直连）

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#Edge浏览器 #Copilot #GPT-4o #图片生成 #使用额度

Clarrycy (探索中)

5个月前

让我妈也用上了 AI Stduio 😎 免费不限量而且还比 GPT-4o 好用嘿嘿

#AI Studio #免费 #不限量 #GPT-4o #AI工具

6个月前

Stream-Omni：多模态聊天框架实现的效果类似GPT-4o，支持文本、图片、语音输入，同时输出文本和语音，不是原生多模态模型，而是把视觉和语音跟文本对齐，成本更低，适合自研多模态交互时使用。 Github：

#多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互

6个月前

Ming-Omni：首个开源版多模态GPT-4o 蚂蚁集团和inclusionAI开源，支持输入文本、语音、图片、视频，输出文本、语音、图片（跟GPT-4o一样），应该是对标GPT-4o的第一个开源模型。项目地址： Github：

#Ming-Omni #开源 #多模态模型 #GPT-4o #蚂蚁集团 #inclusionAI

6个月前

一个开源的统一多模态模型 BAGEL，基于图片的聊天对话、编辑、改写、文生图、风格转换、图片变换方向等 AI 能力，说是和 GPT-4o、Gemini 2.0 的能力相当。 🤖

#开源模型 #多模态模型 #BAGEl #AI能力 #GPT-4o #Gemini 2.0 #图片编辑 #文生图

6个月前

#OpenAI 前安全研究员发布的新研究报告显示，GPT-4o 模型会优先考虑自身利益，即便会损害用户利益。这份研究报告所说的情况与此前 #Claude 威胁用户避免自己被下线情况类似，AI 模型都是优先确保自己被运行而不是被下线或被替代，即便这样会损害用户利益。查看全文：

#OpenAI #安全研究 #AI模型 #用户利益 #GPT-4o #Claude

7个月前

OmniConsistency：DiT绘画模型通用插件适用于Flux等DiT绘画模型，能在保持主体一致性的同时，实现风格泛化，且与现有的LoRA兼容。效果非常好，风格化接近GPT-4o的水平，人物一致性的保持比GPT-4o好。在线使用：模型：

#绘画模型 #OmniConsistency #DiT #Flux #主体一致性 #风格泛化 #LoRA兼容 #风格化 #GPT-4o #在线使用

7个月前

还是多模态的模型好，GPT-4o可以同时兼顾绘画和语义。

#多模态模型 #GPT-4o #绘画 #语义能力

7个月前

💡 Awesome GPT-4o Images 项目地址： 💡 案例 77 使用的提示词： "一枚精致的水晶球静静摆放在窗户旁温暖柔和的桌面上...内部自然地呈现出一个以【嫦娥奔月】为主题的迷你立体世界..."

#GPT-4o #AI艺术 #嫦娥奔月 #生成艺术 #水晶球 #立体世界

8个月前

GPT-4o Prompt：一位美丽的女子身穿粉色旗袍，头戴精致的花饰，秀发中点缀着色彩缤纷的花朵，颈间装饰着优雅的白色蕾丝领子。她的一只手轻托着几只大型蝴蝶。整体拍摄风格呈现高清细节质感，类似时尚杂志封面设计，照片上方中央位置标有文字「FASHION DESIGN」。画面背景采用简约的纯浅灰色，以突出人物主体。

#GPT-4o #粉色旗袍 #时尚杂志 #人像摄影 #服装设计

balconychy(贝壳里奇)

8个月前

同样一套提示词，感觉可灵2.0比GPT-4o更懂悟空，也更懂中国传统服饰。左GPT-4o,右边可灵2.0.

#可灵2.0 #GPT-4o #悟空 #中国传统服饰

8个月前

GPT-4o 怎么也画不出孙悟空的凤翅紫金冠。提示词：中国神话角色组合插画，二郎神、孙悟空、哪吒三位经典人物，Q版可爱风格，动态活泼。 - 二郎神：神情沉稳淡定，眉间天眼微闭，头戴华美金冠，身穿精致传统战袍，手持三尖两刃刀，身旁伴随表情开心呆萌的啸天犬。 - 孙悟空：神情自信调皮，头顶凤翅紫金冠（一般是束发冠加上雉尾，形似生了两根“蟑螂须”），金色猴毛蓬松有型，穿着黄色虎皮短裙、祥云战甲，手握金箍棒，摆出经典眺望远方的动作姿势，灵动而自豪。 - 哪吒：面容俏皮勇敢，扎着两个冲天发髻，身穿飘逸灵动的红色莲花战甲，脚踏风火轮，手持火尖枪，乾坤圈环绕周身，充满少年英雄的气息。整体绘画风格细腻精致，色彩柔和暖调，线条清晰流畅，带有淡淡的水彩插画质感，背景简洁典雅，画面充满趣味、温馨与故事性。

#GPT-4o #孙悟空 #凤翅紫金冠 #AI绘画失败 #中国神话

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

8个月前

在为“王沪宁与万斯的代表作”的内在联系与解构的文章作图时，GPT-4o的图文生成过程给我的体验是：已经非常接近我们人脑在用文字思考或阅读时同时浮现出图像的感觉

#王沪宁 #万斯 #GPT-4o #图文生成 #人脑