#LMArena

歸藏(guizang.ai)

4个月前

Gemini 3 可能已经在 LMArena 已“Riftrunner” 这个名字上线！添加图像然后删除底部的图像选择器似乎可以增加随机到的几率。 Padphone 老师的这个电风扇动画相当的厉害。我随机了好几次，终于随机到了，让他做了一个一棵树的四季变化的 SVG 动画。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 3 #LMArena #Riftrunner #Padphone老师 #SVG动画

4个月前

文心大模型5.0-Preview登榜LMArena，竟然排第二？！文本生成模型，虽然还是Gemini 2.5 pro、Claude sonnet 4.5 thinking等模型领先。但国产差距已经越来越小，从LMArena榜单看： ERNIE-5.0-Preview首次出现，跟GPT-4.5-preview、Claude opus4.1等并列排名第二。 Qwen3和GLM4.6也都稳定在榜单前列。比较吃惊的是，ERNIE-5.0-Preview在创意写作场景竟然排名第一。抽空让它给Jeff dean写个传记试试，跟Claude 4.5 sonnet比比看。 ERNIE-5.0目前为Preview预览版，据说下周四百度世界大会将正式发布，强！

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#文心大模型5.0 #LMArena #国产模型进步 #创意写作第一 #百度世界大会

歸藏(guizang.ai)

4个月前

百度也是扬眉吐气了一回？在LMArena文本排行榜上，看到它的新模型ERNIE-5.0-Preview-1022 居然到了第二，跟 Claude 4.1和4.5并列，比GPT5还高点，神奇。我都不知道他们发新模型，看了一下介绍，说这个模型在复杂常问题理解和提示词遵循上面有了一定的进步。模型的主要优化在创意写作上，就是比如说生传文章啊、营销文案啊、剧本等。这个新的模型会在下个周11月13号的百度世界大会上发布。目前Arena上已经可以测一下了，打算去试试看，等个正式发布的效果

#百度 #ERNIE-5.0 #文本排行榜 #LMArena #创意写作

迈克 Mike Chong

5个月前

Google 已经在 LmArena 里偷偷接入了 Gemini 3 模型，代号 Orionmist 和 Lithiumflow

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Google #Gemini 3 #LMArena #Orionmist #Lithiumflow

5个月前

在text/文本对话这个领域，sonnet 4.5 thinking目前在LMArena排名第一。并列第一的：sonnet 4.5（thinking和非thinking），gemini 2.5 pro，opus 4.1 gpt-5 thinking 在对话上真的让人心累。虽然也能用prompt让它说人话（一定程度上），但openai自己模型的问题，让用户来diy折腾，这是不对的。 openai 本来在文本对话这个领域是占据绝对优势的（从gpt-3.5一直到gpt-4o），现在，团队动荡带来的后果似乎已经现象，文本对话领域竟然被人偷家了🤣

#文本对话 #Sonnet 4.5 #LMArena #OpenAI #GPT-5 #团队动荡 #竞争格局

5个月前

有趣现象！评测赛道集体起飞！ LMArena、OpenRouter都在涨，还有医疗AI OpenEvidence月增200万，字节扣子也表现不错！

#LMArena #Openrouter #OpenEvidence #字节扣子 #AI

6个月前

谷歌“Nano Banana”名字源于早模型漏洞。会导致模型在图像中意外插入香蕉。一开始匿名登陆LMArena，被大家发现质量过于牛x，影响太大。后谷歌承认是自家模型，虽然命名为Gemini 2.5 Flash Image，但大家还是习惯于叫Nano Banana。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#谷歌 #nano banana #Gemini 2.5 Flash Image #模型漏洞 #LMArena

9个月前

LMarena排版榜，可以很好的了解模型能力和适用场景。目前看，谷歌的 Gemini-2.5-Pro-Preview-06-05 模型一骑绝尘，遥遥领先。不过比较惊喜的是，WebDev场景，中国模型 Deepseek R1 0528，甚至超过了Opus4，相当能打。搜索场景最厉害的是gemini-2.5-pro-grounding，第二名是Perplexity的 ppl-sonar-reasoning-pro-high 整体结论 ① Gemini-2.5-Pro-Preview-06-05：目前综合能力最强，适合文本、视觉、代码等多场景，推荐作为主力通用大模型。 ② GPT-4o/4.5：多模态能力突出，适合需要图文混合、复杂推理的场景。 ③ DeepSeek 系列：在代码、开发协作方面表现优异，适合程序员和开发团队。 ④ Claude Opus/Sonnet：在代码解释、文档生成、推理等任务中表现稳定，适合需要高可靠性的企业级应用。 ⑤ GPT-Image-1/Imagen：文生图能力强，适合设计、创意、广告等视觉内容生成。

#LMArena #模型能力 #适用场景 #Gemini-2.5-Pro-Preview-06-05 #DeepSeek R1 0528 #Opus4 #WebDev #搜索场景 #gemini-2.5-pro-grounding #perplexity #ppl-sonar-r

歸藏(guizang.ai)

10个月前

LLM 竞技场 LMArena 对整个站点都进行了翻新，融资了之后终于可以搞搞体验了新 Logo、更好、更快的聊天和排行榜 UI/UX、移动设备优化、聊天记录、视频、图像的评估和排行也即将推出

#LLM竞技场 #LMArena #网站翻新 #融资 #用户体验 #新Logo #聊天功能 #排行榜 #移动优化 #聊天记录 #视频评估 #图像排行

1年前

xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力，以及一个Grok-mini的小模型在 LMArena 上的 ELO 评分达到 1400，排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程（LiveCodeBench）—— 57% [推理后 80%] 此外，在最新的数学竞赛 AIME 2025 中取得了 93% 的成绩，击败了 o3-mini-high。

#XAI #大型语言模型 #Grok 3 #Grok-mini #LMArena #ELO评分 #推理能力 #AIME 24 #GPQA #编程 #LiveCodeBench #数学竞赛 #AIME 2025