提问：Grok 4 Fast 和 DeepSeek-V3.1-Terminus，搜索他们在不同基准上的对比，生成表格，还有价格的对比结果：两个模型在这个问题都回答不好图1-图2是我将链接和图片信息直接发给 Grok 4 Fast，几次修改后的结果图3 是Grok 4 Fast生成的错误信息图4 是DeepSeek-V3.1-Terminus生成的

#Grok 4 Fast #DeepSeek-V3.1-Terminus #模型对比 #回答错误 #基准测试

相关新闻

banboo

6天前

用 AI 帮自己赚钱，直接用 Claude 就好了，被封了就赶快给第二个号充钱，不要抱怨，也不要去测试对比模型，毕竟咱们不是靠自媒体赚钱😅

DeBill

4个月前

Gemini 3 Pro Image 对包含复杂文字的图片生成要比其他模型强很多，图1和图2的测试案例里Gemini 3 Pro Image都是一把过（包含中英+logo设计），之前我试过的图片生成模型在这个测试案例上基本全部吃瘪。但是它在简单任务上又会不尽人意（图3 图4），图片生成模型的能力边界感觉比文字模型更难探索。

摆烂程序媛

4个月前

我用同一张老照片， 6 个模型复原—— 直接修出 6 种完全不同的气质：自然、复古、真实… 📸 老照片修复模型榜单（从强到弱） 1. Nano-Banan Pro 2. Nano-Banan 3. GPT 4. FLUX 5. Wan2.5 6. Seedream V4 1️⃣ Nano-Banan Pro — 最高级感的复原 ✨ 特点：自然 + 高级质感 📌 适合：想要“既自然又高级”的修复

小互

4个月前

流传着一份泄漏的Gemini 3 的基准测试结果不知道真假😌 今晚见分晓

henu王凯

5个月前

后来越深入想这个“六大模型跑币圈”的“基准测试”越不对：其实什么都测不出来。非常重要的原因是：当第一次询问有了倾向性（让模型做出交易决策，而不是先明确其决策是否建仓），后面模型建仓后就变了。