Geek

Geek

0 关注者

1个月前

Groq 出品: OpenBench 为大语言模型提供标准化、可复现的基准测试,跨越20多个涵盖知识、推理、编程和数学的开源评估框架。

#Groq #OpenBench #大语言模型 #基准测试 #开源评估框架

相关新闻

placeholder

AI Will

7小时前

🚨Claude Sonnet 4.5 新版本发布 现在是最强编码者。 疯狂的基准测试。 8个令人惊叹的更新+示例:

placeholder

0xWizard

2天前

人和 ai 的差异没那么大。 人的心法/逻辑/思考方式,就是 LLM 大语言模型底层;平时的“事上练”/经验/盈亏/读书,就是数据训练。 所谓进步和升级,无非就是一边升级模型底层,一边不断喂数据。 这样当 prompt 提示词适当的时候,就能给出更令人满意/更聪明/更接近正确的答案。

placeholder

nicekate

1周前

提问:Grok 4 Fast 和 DeepSeek-V3.1-Terminus,搜索他们在不同基准上的对比,生成表格,还有价格的对比 结果:两个模型在这个问题都回答不好 图1-图2是我将链接和图片信息直接发给 Grok 4 Fast,几次修改后的结果 图3 是Grok 4 Fast生成的错误信息 图4 是DeepSeek-V3.1-Terminus生成的

placeholder

Colin Wu

1周前

AI 深度学习的第一波是下棋,第二波是机器视觉(人脸识别),第三波是 ChatGPT 为代表的大语言模型,在内容、编程、教育、医疗、心理、法律、财务、服务、学术等正在引发巨大颠覆,是前两波绝对无法比拟的,比如给每个孩子配备一个 AI 老师,每个人配备一个 AI 医生,教育水平和寿命都会大幅提升。

placeholder

勃勃OC

1周前

DeepSeek R1登上《自然》杂志封面,成为首个通过同行评议的先进大语言模型。

© 2025 news.news. All rights reserved. 0.05616 秒. v1.0.46
我的评论