LMarena排版榜，可以很好的了解模型能力和适用场景。目前看，谷歌的 Gemini-2.5-Pro-Preview-06-05 模型一骑绝尘，遥遥领先。不过比较惊喜的是，WebDev场景，中国模型 Deepseek R1 0528，甚至超过了Opus4，相当能打。搜索场景最厉害的是gemini-2.5-pro-grounding，第二名是Perplexity的 ppl-sonar-r

#LMArena #模型能力 #适用场景 #Gemini-2.5-Pro-Preview-06-05 #DeepSeek R1 0528 #Opus4 #WebDev #搜索场景 #gemini-2.5-pro-grounding #perplexity #ppl-sonar-r

相关新闻

huangyihe

1周前

Perplexity这个“模型委员会”功能有点意思。它会派三个模型（Opus 4.6、GPT-5.4、Gemini 3.1 Pro，都开Thinking）各自去调研，然后得出结论，看看都有哪些分歧和共识。

Suwako — e/acc

2周前

现在越来越多人同意这个观点了，ai写代码最大的门槛，一个是review不过来，一个是正确性难以保证，rust这种可以极大地减少review的困难度，之前很多人觉得ai写rust不行纯粹是因为模型能力不够，没有利用上lsp丰富的反馈信号做强化学习，现在做到了之后写rust就很强了。这时候，rust的所有问题，学习难度高，编写速度慢，都随着ai不再是一个问题，这时候高性能的优势就显现出来了

10xMyLife

3周前

在过去，限制 AI 编程的是模型能力，而现在是人的表达能力假设把 AI 编程比做一辆拥有自动驾驶能力的车，在过去，就算你清楚的表达了你要去哪，仍然会因为它的能力不够而翻车，甚至在路边抛锚，需要你自己打开引擎盖看看哪里出问了问题对应就是你需要自己 Debug，检查代码，于是很多开发者抱怨引入 AI 成本非常高而现在，这辆车的能力已经基本能将你送到目的地了那么瓶颈就变成了使用人是否有足够清

Mr Panda

3周前

claude code 和 openclaw 效果好除了模型本身的能力外主要是agent 提示词和上下文工程能力强比如用很多上下文，又是用 react 和大量的思维链缺点就是费token 这就是有个群友说为啥只说句hello ，花了他一千个token

sitin

4个月前

perplexity 前面 100 美金已经到账了，这个是新的 180 还有 3000 美金路上，陆陆续续打款的，上 Twitter 一年，卖点工具，走下 cps，也有 6 位数了。还没有接广和 Twitter 分成计划。