首页点击榜热搜榜通知我的

热搜榜

#LLM测试

2025-02-17 20:30:43

刚看到还有人在做一个专门测试大模型“幻觉”的排行榜，这是今年2月11号更新的榜单，排名第一的是Google Gemini-2.0-Flash-001。不用在图上找文采比较好的DeepSeek R1和Sonnet 3.5了，按照这里的统计都属于上不了榜的水平。。。榜单的打分逻辑很简单：训练了一个专门检测幻觉的模型，然后用1000篇短文档测试市面上的各大LLM。每个LLM都被要求严格按照文档内

#大模型 #幻觉排行榜 #Google Gemini-2.0 #DeepSeek R1 #Sonnet 3.5 #幻觉检测 #LLM测试

24小时点击排行

1

因马斯克“亲美”举动加拿大超3.4万人请愿撤销其公民身份

2

"特朗普意在离间中俄"

3

小哪吒“首闯”联合国中国电影大获赞誉

4

踢球遛狗搬重物……这届GDC大会，人形机器人有多吸睛？

5

美国宾夕法尼亚州医院枪击案造成2死5伤

6

特朗普：美国国际开发署原总部大楼将由美海关与边境保护局使用

7

普京发表视频讲话强调建设与发展武装力量的战略方针不变

8

美国宾夕法尼亚州一医院发生枪击事件致1死多伤枪手被击毙

9

哈马斯强烈谴责以色列推迟释放巴勒斯坦被扣押人员

10

美众议员称特朗普政府将取消对近东救济工程处的资助

热门事件

俄乌战争专题

特朗普，马斯克相关事件跟踪

巴以冲突最新进展

尹锡悦弹劾案全纪录

比亚迪”黑奴工”事件

香港47人案

各种举报事件汇总

AI热点追踪

加密货币热点跟踪

推荐信息源

网易新闻-红星新闻