图拉鼎

图拉鼎

0 关注者

3个月前

Grok 4 出来后,最近开始常常评测它:即把同样的问题丢给 o3 和 Grok 4。回答质量确实不错,就连思考的时间两者都差不多:100 秒左右。

#Grok 4 #o3 #大语言模型 #评测 #回答质量

相关新闻

placeholder

向阳乔木

1天前

蝗虫群友一手实测,GPT 5.1幻觉严重,慎重使用。

placeholder

Zexuan Luo

6天前

《agentgateway 评测:功能丰富的 AI 网关新秀》 写了篇文章分析agentgateway。

placeholder

howie.serious

1周前

“prompt engineering”与“大词可厌” --- 对于非开发者来说,80%的prompt 其实都是一件事:和llm对话。所谓“prompt engineering”,其实就是结构化表达,表达清楚自己的想法和需求。 在llm出现之前,人们就一直在说话。只要一个人有结构化表达、费曼式表达的意识,能把自己的想法或需求说出来,说清楚,那ta一定能善用llm。 过度推崇“prompt en

placeholder

YC (Yucheng Liu)

2周前

过去我一直建议中英文推特要分号运营,避免算法混淆。但随着 X 平台新的大语言模型驱动的推荐和自动翻译机制,我的看法正在改变。 如果算法真的能实现“语言无关”的内容分发,这将是“影响力出海”的巨大机遇。真正的“你”,将能无缝连接全球。正在密切观察。🌐

placeholder

卫斯理

2周前

这是什么头脑大语言模型啊 看到“执行”后面就自动蹦出一个“死刑”来

© 2025 news.news. All rights reserved. 0.07438 秒. v1.0.46
我的评论