幽默与讽刺，在判断LLM智能水平，屡试不爽，简单明了。这个测试案例中，我提的问题是：“这幅图片，讽刺的是什么现象？这种现象的荒诞之处在哪里？” 目的是看 LLM 能不能直截了当，精准点名讽刺对象、荒诞之处。因为很多 LLM 可以胡说八道，生成一堆看起来有模有样实际上不及格的内容。这种现象，对于非幽默讽刺的问题，人类很多时候都是很难识别和判断的。但是，在讽刺幽默问题上，结果的质量非常好

#幽默与讽刺 #LLM智能水平 #讽刺现象 #荒诞现象 #内容生成 #问题识别 #人类判断

相关新闻

铁锤人

5个月前

人工智能的内容超过人类生成的内容？这意味什么呢？以后人工内容越来越宝贵？还是以后根本不区分人工还是 AI 的内容呢？

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

5个月前

Cognitive AI会从GenAI分离出来吗？ GenAI关注的是内容生成，这个过程似乎已经到头了，主要是训练语料的多样性。 CognitiveAI关注的是交互，是关系中的涌现。就像每天看宝玉老师的prompt模版变成了一种负担，然后不得不逼自己掌握prompt模版的模版-meta prompt。然后从一个流量博主进化成认知博主。

Tinyfool

5个月前

我做了一个全 AI 生成YouTube 频道，十天后我发现了这些真相

宝玉

5个月前

为什么我用了那么多提示词模板甚至用了 AI 帮忙还是写不好提示词？上次我分享了一个模拟雷军演讲的提示词，广受好评，但也有网友想知道我是怎么写出这样的提示词的。授人以鱼不如授人以渔，还是继续分享一下写好提示词的方法论。现在流行的是上下文工程（Context Engineering），似乎很少有人提起提示词工程（Prompt Engineering），甚至很多人觉得提示词工程已经不需要了：

Frank Wang 玉伯

6个月前

AI 应用最有竞争壁垒的，可能就是人机交互。好的人机交互，需要充分理解模型的能力边界，同时也需要充分理解人的交互感知，这两者都做到极致，才能产生 aha moment。比如：ChatGPT 通过对话形态让人与模型能交谈，DeepSeek 通过展示思考过程让人感知到 AI 的推理能力，Manus 通过展示工具调用让人惊叹 AI 真能帮人干活。这些例子里，交互界面都至关重要。近几个月让