howie.serious

howie.serious

0 关注者

4天前

notebooklm 和 llm 的幻觉测试实例: > 梁山 108 好汉的座次安排,负责迎接来宾的首领有哪些? 这个问题很“抽象”。就是因为读书时遇到了,就顺手拿来测试当前 llm 对边缘知识的处理效果。 gpt-5.2:不论是 thinking 还是 chat 模型,回答错误。但 search➕thinking 时可以答对。 notebooklm:作为“ai 笔记本”,我上传了水浒全文

热门新闻