图拉鼎

图拉鼎

0 关注者

8个月前

Grok 4 出来后,最近开始常常评测它:即把同样的问题丢给 o3 和 Grok 4。回答质量确实不错,就连思考的时间两者都差不多:100 秒左右。

#Grok 4 #o3 #大语言模型 #评测 #回答质量

相关新闻

placeholder

Shengyi Wang

5天前

昨天还看到个说法挺有意思。大概是说规律性很强的东西,数学是可以分析的;完全随机的,数学也能分析,概率统计嘛。但不是那么规律但又不是完全随机的,现在的数学就没什么办法了,比如大语言模型。于是我无端想到了“圣人忘情,最下不及情;情之所钟,正在我辈。”这句话。

placeholder

勃勃OC

2周前

Meta据传终于看清了Alexander Wang和Scale AI的本质 请问你们内部最新的,和世界前沿公司媲美的“闭源”大模型,在哪呢? 有人用吗?比得过Claude吗?能拿得下五角大楼的合作吗? 靠三俗广告诈骗青少年赚来的钱,经得住扎克伯格败几年? 就等一个马克扎克伯格公开宣布“我错了”,放弃大语言模型的错误战略,并裁员50% 谢谢大家

placeholder

Xiaowen

3周前

大语言模型倒是有一个启发意义,很多结果是海量积累后「涌现」出来的。 大家都知道,面相 benchmark 拟合刷分,最终模型也是没有用的。 既然如此,为啥人类总是希望快速的拟合各种技巧,认知提升,试图一下子改命,还不太能接受持续学习,等待结果「涌现」呢。

placeholder

Andy Stewart

4个月前

Snoy大法居然生产机械键盘?感觉不错呀

placeholder

向阳乔木

4个月前

蝗虫群友一手实测,GPT 5.1幻觉严重,慎重使用。

© 2025 news.news. All rights reserved. 0.04311 秒. v1.0.46
我的评论