Groq 出品： OpenBench 为大语言模型提供标准化、可复现的基准测试，跨越20多个涵盖知识、推理、编程和数学的开源评估框架。

#Groq #OpenBench #大语言模型 #基准测试 #开源评估框架

相关新闻

Shengyi Wang

5天前

昨天还看到个说法挺有意思。大概是说规律性很强的东西，数学是可以分析的；完全随机的，数学也能分析，概率统计嘛。但不是那么规律但又不是完全随机的，现在的数学就没什么办法了，比如大语言模型。于是我无端想到了“圣人忘情，最下不及情；情之所钟，正在我辈。”这句话。

勃勃OC

2周前

Meta据传终于看清了Alexander Wang和Scale AI的本质请问你们内部最新的，和世界前沿公司媲美的“闭源”大模型，在哪呢？有人用吗？比得过Claude吗？能拿得下五角大楼的合作吗？靠三俗广告诈骗青少年赚来的钱，经得住扎克伯格败几年？就等一个马克扎克伯格公开宣布“我错了”，放弃大语言模型的错误战略，并裁员50% 谢谢大家

Xiaowen

3周前

大语言模型倒是有一个启发意义，很多结果是海量积累后「涌现」出来的。大家都知道，面相 benchmark 拟合刷分，最终模型也是没有用的。既然如此，为啥人类总是希望快速的拟合各种技巧，认知提升，试图一下子改命，还不太能接受持续学习，等待结果「涌现」呢。

小互

4个月前

流传着一份泄漏的Gemini 3 的基准测试结果不知道真假😌 今晚见分晓

howie.serious

4个月前

“prompt engineering”与“大词可厌” --- 对于非开发者来说，80%的prompt 其实都是一件事：和llm对话。所谓“prompt engineering”，其实就是结构化表达，表达清楚自己的想法和需求。在llm出现之前，人们就一直在说话。只要一个人有结构化表达、费曼式表达的意识，能把自己的想法或需求说出来，说清楚，那ta一定能善用llm。过度推崇“prompt en