xAI 的新大型语言模型 Grok 3 发布 Grok 3具备推理能力，以及一个Grok-mini的小模型在 LMArena 上的 ELO 评分达到 1400，排名第一 AIME 24 —— 52% [推理后 96%] GPQA —— 75% [推理后 85%] 编程（LiveCodeBench）—— 57% [推理后 80%] 此外，在最新的数学竞赛 AIME 2025 中取得了 93

#XAI #大型语言模型 #Grok 3 #Grok-mini #LMArena #ELO评分 #推理能力 #AIME 24 #GPQA #编程 #LiveCodeBench #数学竞赛 #AIME 2025

郭宇 guoyu.eth

11小时前

Gemini Live 的效果太好了，xAI 的 realtime audio 刚出来又遇到极强的竞争对手！

Andy Stewart

1天前

哈哈哈哈编程小白 Vibe Coding 现状。发给朋友看了，说真写实🤣

向阳乔木

2天前

Claude看你在达到每日限制后，手动编写代码的样子...

黄赟

2天前

一个最能体现你当下 AI Coding 水平的问题：你能让 codex，claude code, gemini cli 无人值守运行多长时间？注意⚠️：是无人值守，你可以去跑步，吃饭，睡觉，回来就拿结果的那种

Dawei Ma

2天前

用 🦞 每天自动帮我刷 Reddit 和 HN，整理好了扔到 Discord，早上起来直接看简报，再也不用自己盯着刷了。写了篇文章记录这个折腾过程 👇