nicekate

nicekate

0 关注者

6个月前

提问:Grok 4 Fast 和 DeepSeek-V3.1-Terminus,搜索他们在不同基准上的对比,生成表格,还有价格的对比 结果:两个模型在这个问题都回答不好 图1-图2是我将链接和图片信息直接发给 Grok 4 Fast,几次修改后的结果 图3 是Grok 4 Fast生成的错误信息 图4 是DeepSeek-V3.1-Terminus生成的

#Grok 4 Fast #DeepSeek-V3.1-Terminus #模型对比 #回答错误 #基准测试

相关新闻

placeholder

banboo

6天前

用 AI 帮自己赚钱,直接用 Claude 就好了,被封了就赶快给第二个号充钱,不要抱怨,也不要去测试对比模型,毕竟咱们不是靠自媒体赚钱😅

placeholder

DeBill

4个月前

Gemini 3 Pro Image 对包含复杂文字的图片生成要比其他模型强很多,图1和图2的测试案例里Gemini 3 Pro Image都是一把过(包含中英+logo设计),之前我试过的图片生成模型在这个测试案例上基本全部吃瘪。 但是它在简单任务上又会不尽人意(图3 图4),图片生成模型的能力边界感觉比文字模型更难探索。

placeholder

摆烂程序媛

4个月前

我用同一张老照片, 6 个模型复原—— 直接修出 6 种完全不同的气质:自然、复古、真实… 📸 老照片修复模型榜单(从强到弱) 1. Nano-Banan Pro 2. Nano-Banan 3. GPT 4. FLUX 5. Wan2.5 6. Seedream V4 1️⃣ Nano-Banan Pro — 最高级感的复原 ✨ 特点:自然 + 高级质感 📌 适合:想要“既自然又高级”的修复

placeholder

小互

4个月前

流传着一份泄漏的Gemini 3 的基准测试结果 不知道真假😌 今晚见分晓

placeholder

henu王凯

5个月前

后来越深入想这个“六大模型跑币圈”的“基准测试”越不对:其实什么都测不出来。 非常重要的原因是:当第一次询问有了倾向性(让模型做出交易决策,而不是先明确其决策是否建仓),后面模型建仓后就变了。

© 2025 news.news. All rights reserved. 0.03036 秒. v1.0.46
我的评论