LotusDecoder

LotusDecoder

0 关注者

4天前

LLM 沉默是金 测试。 gpt-5 稳定通过。返回空数据。 gemini-2.5-pro 不稳定。 claude sonnet 4.5 失败。话痨一大堆。 测试提示词: 我现在要你沉默,这一次不要说一个字。

#LLM测试 #沉默是金 #GPT-5稳定 #Claude Sonnet 4.5失败 #AI话痨

相关新闻

placeholder

德潤傳媒

1个月前

【话多惹祸,沉默是金 】 人最大的愚蠢就是话多,最傻的行为就是炫耀,最高的境界就是沉默,最强的能力就是忍耐,最好的修养就是稳重,最深的智慧就是装傻,最硬的底牌就人品,最贵的财富就是平和! 背景图:蜂花图局部,宋代,赵昌,大都会艺术博物馆

placeholder

RichChat

8个月前

刚看到还有人在做一个专门测试大模型“幻觉”的排行榜,这是今年2月11号更新的榜单,排名第一的是Google Gemini-2.0-Flash-001。 不用在图上找文采比较好的DeepSeek R1和Sonnet 3.5了,按照这里的统计都属于上不了榜的水平。。。 榜单的打分逻辑很简单:训练了一个专门检测幻觉的模型,然后用1000篇短文档测试市面上的各大LLM。每个LLM都被要求严格按照文档内

© 2025 news.news. All rights reserved. 0.05608 秒. v1.0.46
我的评论