时政
财经
科技
虚拟货币
其他
登录
#LLM测试
关注
LotusDecoder
2周前
LLM 沉默是金 测试。 gpt-5 稳定通过。返回空数据。 gemini-2.5-pro 不稳定。 claude sonnet 4.5 失败。话痨一大堆。 测试提示词: 我现在要你沉默,这一次不要说一个字。
#LLM测试
#沉默是金
#GPT-5稳定
#Claude Sonnet 4.5失败
#AI话痨
分享
评论 0
0
RichChat
8个月前
刚看到还有人在做一个专门测试大模型“幻觉”的排行榜,这是今年2月11号更新的榜单,排名第一的是Google Gemini-2.0-Flash-001。 不用在图上找文采比较好的DeepSeek R1和Sonnet 3.5了,按照这里的统计都属于上不了榜的水平。。。 榜单的打分逻辑很简单:训练了一个专门检测幻觉的模型,然后用1000篇短文档测试市面上的各大LLM。每个LLM都被要求严格按照文档内容做总结,温度设为0以保证输出的确定性。记录三个关键指标:事实一致性率、幻觉率和回答率。 为什么选择总结任务?- 因为在普通问答中研究者很难判断回答是否属于幻觉。但在总结任务中,由于有明确的参考标准 - 原文本身。这让评估变得客观且可量化。也算是模拟了真实世界中RAG系统的应用场景。
#大模型
#幻觉排行榜
#Google Gemini-2.0
#DeepSeek R1
#Sonnet 3.5
#幻觉检测
#LLM测试
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞