search icon

幽默与讽刺,在判断LLM智能水平,屡试不爽,简单明了。 这个测试案例中,我提的问题是:“这幅图片,讽刺的是什么现象? 这种现象的荒诞之处在哪里?” 目的是看 LLM 能不能直截了当,精准点名讽刺对象、荒诞之处。 因为很多 LLM 可以胡说八道,生成一堆看起来有模有样实际上不及格的内容。这种现象,对于非幽默讽刺的问题,人类很多时候都是很难识别和判断的。但是,在讽刺幽默问题上,结果的质量非常好判断。 测试打分如下: - o1 得分 100 分:直击本质; - gpt-4o 80 分:认识到了本质,也基本没有偏离; - gemini 2.0 flash thinking ,最多 60 分,实际不及格:错误理解了本质,但也谈到了“忽略自身命运”,但胡说八道的程度也不低; - gemini 2.0 exp,40 分: 没抓住本质,通篇胡说八道;学渣模式; - gemini 1.5 pro,0 分:和图里的两个货是一个水平🤣(后两张图片在评论中补发) 结论:在语言理解上,gemini 系列模型和 gpt、o1 还有本质差距。普通人日常使用,尤其是语言理解场景,还是要以 ChatGPT 为主力。

0/200

评论 0

暂无更多评论