1天前

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦,这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4