#模型对比

6天前

用 AI 帮自己赚钱，直接用 Claude 就好了，被封了就赶快给第二个号充钱，不要抱怨，也不要去测试对比模型，毕竟咱们不是靠自媒体赚钱😅

#AI变现 #Claude #自媒体 #赚钱 #模型对比 #账号管理

4个月前

Gemini 3 Pro Image 对包含复杂文字的图片生成要比其他模型强很多，图1和图2的测试案例里Gemini 3 Pro Image都是一把过（包含中英+logo设计），之前我试过的图片生成模型在这个测试案例上基本全部吃瘪。但是它在简单任务上又会不尽人意（图3 图4），图片生成模型的能力边界感觉比文字模型更难探索。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 3 Pro Image #图片生成 #复杂文字 #模型对比 #能力边界

摆烂程序媛

4个月前

我用同一张老照片， 6 个模型复原—— 直接修出 6 种完全不同的气质：自然、复古、真实… 📸 老照片修复模型榜单（从强到弱） 1. Nano-Banan Pro 2. Nano-Banan 3. GPT 4. FLUX 5. Wan2.5 6. Seedream V4 1️⃣ Nano-Banan Pro — 最高级感的复原 ✨ 特点：自然 + 高级质感 📌 适合：想要“既自然又高级”的修复风 ✅ 气质更真实 ✅ 五官复原度高 ✅ 观感舒适，有生活感 2️⃣ Nano-Banan — 自然美感最强 ✨ 特点：复原自然、不油、不假 📌 适合：希望“自然、干净”的复原风格 ✅ 五官修复温柔 ✅ 色彩柔和 ✅ 光影更“摄影棚感” 3️⃣ Seedream V4 — 美化感最强、最精致 ✨ 特点：光滑、亮、年轻化最明显 📌 适合：想让老照片变成“复古写真级”的用户 ✅ 皮肤柔光很强 ✅ 细节更精致但偏美颜 ✅ 画面像影楼古风写真 4️⃣ GPT — 最保守、最接近原图 ✨ 特点：复原度稳，但不主动“美化” 📌 适合：追求“原样恢复”、不想变脸的用户 ✅ 面部轮廓基本忠于原图 ✅ 肤质保留一定真实纹理 ✅ 色彩偏淡雅、自然 5️⃣ FLUX — 真实写实派 ✨ 特点：真实质感强，有点纪录片风 📌 适合：想要“真实写实”的复原 ✅ 光影对比明显 ✅ 肤质更偏真实人像 ✅ 不太“美化”，更写实 6️⃣ Wan2.5 — 最复古、最油画感 ✨ 特点：带古典油画风、柔光艺术感 📌 适合：想让老照片变成“艺术复古肖像”的用户 ✅ 色调复古偏暖 ✅ 皮肤柔但不假 ✅ 氛围感非常强 ✅ 结果像“复古画册写真”

nanobanana平台助力个人形象照生成，专业形象照引发热议· 107 条信息

#老照片修复 #模型对比 #复原效果 #风格选择 #技术评测

𝗖𝘆𝗱𝗶𝗮𝗿

5个月前

近期AI浏览器方向、新模型方向依旧火热，不过随着 DeepSeek-OCR开源的革命性文字识别模型到来，也迎来了模型OCR这个赛道的新纪元，无论是光学压缩技术还是模拟人类记忆机制，相信在这个赛道不会缺乏新的追逐，而且，这是传统ETL的基础。于是，这两天我观察了一下各大模型平台的OCR模型竞争，Huggingface 和 ModelScope，我发现了一个老朋友，PaddleOCR-VL（而且，连续5天HuggingFace Trending 第一）。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。首先，对比一下两个模型： PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖（109种语言） - 成熟的工业级生态和工具链 - 多种调用方式（命令行、Python API、vLLM 加速） - 最低的硬件部署门槛（0.9B） DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力从目前来看，PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者，并且Benchmark依然强悍！之前在很多开源社区以及项目中就关注到PaddleOCR-VL。从几个我亲自实践的场景Case来看，这两个模型输出的结构标注都非常完善，没有出现错标。但是，部分比较复杂的页面出现了漏标。而且，从对比来看，PaddleOCR-VL 对页面内容的清洗和过滤做过微调，比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉，而 DeepSeek-OCR 则会保留这些内容。我的几个实验场景： - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符，第二次会回归正常，而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失，PaddleOCR-VL非常稳定，相关图像存储、标记、非常准确。总结下适用场景 PaddleOCR-VL： - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR： - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景基于我的使用场景，总体还说 PaddleOCR 不愧被大家成为：最强OCR之神！

#OCR #PaddleOCR-VL #DeepSeek-OCR #模型对比 #文字识别

5个月前

发现一个展示和比较大型语言模型（LLM）性能的综合排行榜网站。覆盖了多个细分领域的模型表现，比如研究能力、推理水平、代码生成、数学运算和多模态理解等，为用户提供最权威的模型性能对比数据。 LLM-Stats . com

#大型语言模型 #LLM #性能排行榜 #模型对比 #多模态理解

5个月前

在 Augment 里使用 Sonnet 4.5 一次提问调用了 84 tools Sonnet 4.5 运行还是很持久的，在 Augment 调用工具似乎比 GPT-5 更强不过两个模型都不擅长 AppleScript 脚本编写，要说矮子里拔尖，Sonnet 4.5 更好

#augment #Sonnet 4.5 #tools调用 #AppleScript脚本编写 #模型对比

5个月前

claude模型没有分为chat model和 reasoning model不同版本，而是同一个模型，带一个extended thinking开关；对比之下，gpt-5则采取了不同的路线，分为gpt-5 chat和gpt-5 thinking，这是两个不同的模型。你更喜欢哪一种？欢迎分享你的实践经验。对我来说，默认模型是 gpt-5 thinking；claude 的 extend thinking 模式，用得少，也暂时没看到这种模式的先进性。

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑· 158 条信息

#Claude #GPT-5 #模型对比 #技术选择 #用户偏好

6个月前

提问：Grok 4 Fast 和 DeepSeek-V3.1-Terminus，搜索他们在不同基准上的对比，生成表格，还有价格的对比结果：两个模型在这个问题都回答不好图1-图2是我将链接和图片信息直接发给 Grok 4 Fast，几次修改后的结果图3 是Grok 4 Fast生成的错误信息图4 是DeepSeek-V3.1-Terminus生成的

#Grok 4 Fast #DeepSeek-V3.1-Terminus #模型对比 #回答错误 #基准测试

6个月前

文档识别模型，我一般就用这个图测试。大家可以猜猜哪个模型最好，也可以自己测试下。

#文档识别 #模型测试 #模型对比

6个月前

最近两个P图模型，即梦4.0和小香蕉都太火了，实际用起来感觉差异非常大。前几天我写 Nano Banana 的文章时候，当时的判断是 Nano Banana 是今年商业价值最高的模型了。但是没想到很快，字节就推出即梦4.0 ，完全弥补了 Nano Banana 的中文场景不足的问题，但在非中文的P图场景中的表现有时会出现很奇怪的问题，比如面部模糊。为了方便大家对这两个模型的能力有个清晰的认知，我写了这篇新的文章来对比。总而言之，我觉得倒不是输赢问题，而是两个模型的风格差异很大。

#P图模型 #梦4.0 #小香蕉 #nano banana #模型对比

7个月前

nano-banana 大展宏图！开个我的图像编辑测试大合集贴！目的： ✅探索模型能力边界 ✅模型各有所长，方便大家根据细分场景找到最合适自己的模型 ✅方便整活/灵感参与对比模型（当前版本四强/各有所长）： 1️⃣nano-banana（Gemini2.5FlashImg 2️⃣GPT-Img 3️⃣Flux-Kontext-Pro 4️⃣Qwen-Img-Edit 1/n

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#nano-banana #图像编辑 #模型对比 #Gemini2.5FlashImg #Qwen-Img-Edit

7个月前

几个大模型卡片生成效果对比了一下，个人最喜欢的居然是 Gemini 2.5 Flash

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 2.5 Flash #大模型 #模型对比 #个人喜爱 #积极

Tony出海营销

7个月前

然后呢？没有然后了！这句话出自Gemini 2.5 Pro，比GPT 5硬出123套模板式回答舒服多啊。GPT5只能用于解决疑难杂症。日常使用还得是Gemini。

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑· 158 条信息

#Gemini 2.5 Pro #GPT 5 #模型对比 #用户体验 #日常使用

7个月前

同样的写作类 prompt，gpt-5 和 gpt-4.5 的输出有质的差距。 gpt-5 还是偏好用大词（强化学习后训练出来的模型都这样？越降本增效，大词问题越严重？）。内容上不如 gpt-4.5 更丰富，更清楚全面地解释本质。语言上，用词和文风都不如 gpt-4.5。当然，gpt-5 的问题必须和 gpt-4.5 横向对比，认真阅读，甚至多次阅读，才能看出来差异。不对比 gpt-4.5 的话，gpt-5 的输出是不错的🤣

OpenAI GPT-5发布引发用户不满，阿尔特曼回应质疑· 158 条信息

#GPT-5 #GPT-4.5 #写作prompt #大词 #模型对比

8个月前

Manus 这篇文章非常出色，在我心中堪比 Anthropic 的《Building Effective Agents》。为了更深入理解这篇文章，我让 AI 对其逐段进行翻译与解读，可视化呈现，并逐一研读。最近，Manus 将它与 ChatGPT Agent 进行对比，并对后者进行了嘲笑。我认为这种评价有些欠妥。毕竟 Manus 所使用的主要模型是 Claude，并非自研模型。无论是在对比视频还是博文中，Manus 侧重的是可视化呈现，较少涉及深层次问题的严谨对照分析。

#Manus #Claude #ChatGPT Agent #AI解读 #模型对比

8个月前

平时要养成同时用多个模型对比答案的习惯，平时我用 claude 和 gemini 多，今天用 cherry studio 对比了一下，发现竟然是 gpt 4.1 的效果最好要是没有对比的话，试一下 gemini 2.5 pro 拿不到结果，估计就放弃了，错过机会

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#模型对比 #Gemini 2.5 Pro #GPT 4.1 #Cherry Studio #效果最佳

8个月前

我想问一下，假如你们平时是只开了某一家的 AI 会员（比如 gemini gpt claude 三选一）那做 agent 的时候怎么测试不同的模型？我现在一套提示词，要用 claude 4 sonnet、gemini 2.5 pro、gpt 4.1 全都跑一遍，这似乎只有聚合平台才能实现呀

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#AI会员 #Agent测试 #模型对比 #聚合平台 #提示词

9个月前

MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制相比 DeepSeek R1 等模型，在处理 10 万 tokens 的生成任务时，MiniMax-M1 的计算量仅为其 25%。该模型基于前代模型 MiniMax-Text-01 开发，总参数规模为 4560亿，每个token激活参数为 45.9亿，支持最长 100万tokens 的上下文输入（约为 DeepSeek R1 的8倍）。提出了一种新型强化学习算法 CISPO（Clipped Importance Sampling with Policy Optimization），该算法：不裁剪 token 梯度，而是裁剪采样权重（importance weights）。减少训练不稳定性，提升收敛质量。缩短训练时长（Qwen2.5对比实验显示，训练速度提升2倍）

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 27 条信息

#MiniMax-M1 #开源模型 #Lightning Attention #深度学习 #Qwen3 #DeepSeek-R1 #AI性能 #模型对比 #注意力机制 #上下文优化

karminski-牙医

11个月前

o3 和 o4-mini 数学和编程能力得分看评分应该是头部水平的，有的项目要超过 gemini-2.5-pro (目前编程最强)

#人工智能 #编程 #数学 #技术评估 #模型对比

Jintao Zhang 张晋涛

11个月前

这是什么意思呢？Anthropic 给自己的 API 加了个 OpenAI 的 API 兼容。这样就可以直接使用 OpenAI 的 SDK 了，以及在各类兼容 OpenAI API 接口的应用上来使用 Anthropic 的模型了。原本还以为以后 LLM 的接口形式有两种，Anthropic 能硬扛压力，但这样看，以后应该就只有 OpenAI 这一种了

#Anthropic #OpenAI #API兼容 #LLM #模型对比

李老师不是你老师

1年前

阿里巴巴宣布新AI模型优于DeepSeek和Meta 阿里云表示，根据其进行的基准测试，Qwen2.5 Max与OpenAI、DeepSeek和Meta的领先模型进行了对比，Qwen2.5-Max全部超越了对比模型。

#阿里巴巴 #人工智能 #QWen2.5 #OpenAI #模型对比 #技术突破