时政
财经
科技
虚拟货币
其他
登录
#LMArena
关注
歸藏(guizang.ai)
2天前
Gemini 3 可能已经在 LMArena 已“Riftrunner” 这个名字上线! 添加图像然后删除底部的图像选择器似乎可以增加随机到的几率。 Padphone 老师的这个电风扇动画相当的厉害。 我随机了好几次,终于随机到了,让他做了一个一棵树的四季变化的 SVG 动画。
Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 654 条信息
#Gemini 3
#LMArena
#Riftrunner
#Padphone老师
#SVG动画
分享
评论 0
0
向阳乔木
1周前
文心大模型5.0-Preview登榜LMArena,竟然排第二?! 文本生成模型,虽然还是Gemini 2.5 pro、Claude sonnet 4.5 thinking等模型领先。 但国产差距已经越来越小,从LMArena榜单看: ERNIE-5.0-Preview首次出现,跟GPT-4.5-preview、Claude opus4.1等并列排名第二。 Qwen3和GLM4.6也都稳定在榜单前列。 比较吃惊的是,ERNIE-5.0-Preview在创意写作场景竟然排名第一。 抽空让它给Jeff dean写个传记试试,跟Claude 4.5 sonnet比比看。 ERNIE-5.0目前为Preview预览版,据说下周四百度世界大会将正式发布,强!
Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 654 条信息
#文心大模型5.0
#LMArena
#国产模型进步
#创意写作第一
#百度世界大会
分享
评论 0
0
歸藏(guizang.ai)
1周前
百度也是扬眉吐气了一回? 在LMArena文本排行榜上,看到它的新模型ERNIE-5.0-Preview-1022 居然到了第二,跟 Claude 4.1和4.5并列,比GPT5还高点,神奇。 我都不知道他们发新模型,看了一下介绍,说这个模型在复杂常问题理解和提示词遵循上面有了一定的进步。 模型的主要优化在创意写作上,就是比如说生传文章啊、营销文案啊、剧本等。 这个新的模型会在下个周11月13号的百度世界大会上发布。 目前Arena上已经可以测一下了,打算去试试看,等个正式发布的效果
#百度
#ERNIE-5.0
#文本排行榜
#LMArena
#创意写作
分享
评论 0
0
迈克 Mike Chong
3周前
Google 已经在 LmArena 里偷偷接入了 Gemini 3 模型,代号 Orionmist 和 Lithiumflow
Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 654 条信息
#Google
#Gemini 3
#LMArena
#Orionmist
#Lithiumflow
分享
评论 0
0
howie.serious
1个月前
在text/文本对话这个领域,sonnet 4.5 thinking目前在LMArena排名第一。 并列第一的:sonnet 4.5(thinking和非thinking),gemini 2.5 pro,opus 4.1 gpt-5 thinking 在对话上真的让人心累。虽然也能用prompt让它说人话(一定程度上),但openai自己模型的问题,让用户来diy折腾,这是不对的。 openai 本来在文本对话这个领域是占据绝对优势的(从gpt-3.5一直到gpt-4o),现在,团队动荡带来的后果似乎已经现象,文本对话领域竟然被人偷家了🤣
#文本对话
#Sonnet 4.5
#LMArena
#OpenAI
#GPT-5
#团队动荡
#竞争格局
分享
评论 0
0
AI Will
1个月前
有趣现象!评测赛道集体起飞! LMArena、OpenRouter都在涨,还有医疗AI OpenEvidence月增200万,字节扣子也表现不错!
#LMArena
#Openrouter
#OpenEvidence
#字节扣子
#AI
分享
评论 0
0
向阳乔木
2个月前
谷歌“Nano Banana”名字源于早模型漏洞。 会导致模型在图像中意外插入香蕉。 一开始匿名登陆LMArena,被大家发现质量过于牛x,影响太大。 后谷歌承认是自家模型,虽然命名为Gemini 2.5 Flash Image,但大家还是习惯于叫Nano Banana。
Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 654 条信息
#谷歌
#nano banana
#Gemini 2.5 Flash Image
#模型漏洞
#LMArena
分享
评论 0
0
向阳乔木
4个月前
LMarena排版榜,可以很好的了解模型能力和适用场景。 目前看,谷歌的 Gemini-2.5-Pro-Preview-06-05 模型一骑绝尘,遥遥领先。 不过比较惊喜的是,WebDev场景,中国模型 Deepseek R1 0528,甚至超过了Opus4,相当能打。 搜索场景最厉害的是gemini-2.5-pro-grounding,第二名是Perplexity的 ppl-sonar-reasoning-pro-high 整体结论 ① Gemini-2.5-Pro-Preview-06-05:目前综合能力最强,适合文本、视觉、代码等多场景,推荐作为主力通用大模型。 ② GPT-4o/4.5:多模态能力突出,适合需要图文混合、复杂推理的场景。 ③ DeepSeek 系列:在代码、开发协作方面表现优异,适合程序员和开发团队。 ④ Claude Opus/Sonnet:在代码解释、文档生成、推理等任务中表现稳定,适合需要高可靠性的企业级应用。 ⑤ GPT-Image-1/Imagen:文生图能力强,适合设计、创意、广告等视觉内容生成。
#LMArena
#模型能力
#适用场景
#Gemini-2.5-Pro-Preview-06-05
#DeepSeek R1 0528
#Opus4
#WebDev
#搜索场景
#gemini-2.5-pro-grounding
#perplexity
#ppl-sonar-r
分享
评论 0
0
歸藏(guizang.ai)
5个月前
LLM 竞技场 LMArena 对整个站点都进行了翻新,融资了之后终于可以搞搞体验了 新 Logo、更好、更快的聊天和排行榜 UI/UX、移动设备优化、聊天记录、视频、图像的评估和排行也即将推出
#LLM竞技场
#LMArena
#网站翻新
#融资
#用户体验
#新Logo
#聊天功能
#排行榜
#移动优化
#聊天记录
#视频评估
#图像排行
分享
评论 0
0
勃勃OC
8个月前
xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力,以及一个Grok-mini的小模型 在 LMArena 上的 ELO 评分达到 1400,排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程(LiveCodeBench)—— 57% [推理后 80%] 此外,在最新的数学竞赛 AIME 2025 中取得了 93% 的成绩,击败了 o3-mini-high。
#XAI
#大型语言模型
#Grok 3
#Grok-mini
#LMArena
#ELO评分
#推理能力
#AIME 24
#GPQA
#编程
#LiveCodeBench
#数学竞赛
#AIME 2025
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞