Grok 4 出来后，最近开始常常评测它：即把同样的问题丢给 o3 和 Grok 4。回答质量确实不错，就连思考的时间两者都差不多：100 秒左右。

#Grok 4 #o3 #大语言模型 #评测 #回答质量

相关新闻

Shengyi Wang

5天前

昨天还看到个说法挺有意思。大概是说规律性很强的东西，数学是可以分析的；完全随机的，数学也能分析，概率统计嘛。但不是那么规律但又不是完全随机的，现在的数学就没什么办法了，比如大语言模型。于是我无端想到了“圣人忘情，最下不及情；情之所钟，正在我辈。”这句话。

勃勃OC

2周前

Meta据传终于看清了Alexander Wang和Scale AI的本质请问你们内部最新的，和世界前沿公司媲美的“闭源”大模型，在哪呢？有人用吗？比得过Claude吗？能拿得下五角大楼的合作吗？靠三俗广告诈骗青少年赚来的钱，经得住扎克伯格败几年？就等一个马克扎克伯格公开宣布“我错了”，放弃大语言模型的错误战略，并裁员50% 谢谢大家

Xiaowen

3周前

大语言模型倒是有一个启发意义，很多结果是海量积累后「涌现」出来的。大家都知道，面相 benchmark 拟合刷分，最终模型也是没有用的。既然如此，为啥人类总是希望快速的拟合各种技巧，认知提升，试图一下子改命，还不太能接受持续学习，等待结果「涌现」呢。

Andy Stewart

4个月前

Snoy大法居然生产机械键盘？感觉不错呀

向阳乔木

4个月前

蝗虫群友一手实测，GPT 5.1幻觉严重，慎重使用。