时政
财经
科技
登录
#LMArena
关注
向阳乔木
2周前
LMarena排版榜,可以很好的了解模型能力和适用场景。 目前看,谷歌的 Gemini-2.5-Pro-Preview-06-05 模型一骑绝尘,遥遥领先。 不过比较惊喜的是,WebDev场景,中国模型 Deepseek R1 0528,甚至超过了Opus4,相当能打。 搜索场景最厉害的是gemini-2.5-pro-grounding,第二名是Perplexity的 ppl-sonar-reasoning-pro-high 整体结论 ① Gemini-2.5-Pro-Preview-06-05:目前综合能力最强,适合文本、视觉、代码等多场景,推荐作为主力通用大模型。 ② GPT-4o/4.5:多模态能力突出,适合需要图文混合、复杂推理的场景。 ③ DeepSeek 系列:在代码、开发协作方面表现优异,适合程序员和开发团队。 ④ Claude Opus/Sonnet:在代码解释、文档生成、推理等任务中表现稳定,适合需要高可靠性的企业级应用。 ⑤ GPT-Image-1/Imagen:文生图能力强,适合设计、创意、广告等视觉内容生成。
#LMArena
#模型能力
#适用场景
#Gemini-2.5-Pro-Preview-06-05
#DeepSeek R1 0528
#Opus4
#WebDev
#搜索场景
#gemini-2.5-pro-grounding
#perplexity
#ppl-sonar-r
分享
评论 0
0
歸藏(guizang.ai)
1个月前
LLM 竞技场 LMArena 对整个站点都进行了翻新,融资了之后终于可以搞搞体验了 新 Logo、更好、更快的聊天和排行榜 UI/UX、移动设备优化、聊天记录、视频、图像的评估和排行也即将推出
#LLM竞技场
#LMArena
#网站翻新
#融资
#用户体验
#新Logo
#聊天功能
#排行榜
#移动优化
#聊天记录
#视频评估
#图像排行
分享
评论 0
0
勃勃OC
4个月前
xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力,以及一个Grok-mini的小模型 在 LMArena 上的 ELO 评分达到 1400,排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程(LiveCodeBench)—— 57% [推理后 80%] 此外,在最新的数学竞赛 AIME 2025 中取得了 93% 的成绩,击败了 o3-mini-high。
#XAI
#大型语言模型
#Grok 3
#Grok-mini
#LMArena
#ELO评分
#推理能力
#AIME 24
#GPQA
#编程
#LiveCodeBench
#数学竞赛
#AIME 2025
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞