llm幻觉的分类、根本原因与解决方案 |openai 最新blog 《Why language models hallucinate》 === 信心满满张嘴就来、一本正经胡说八道,人类如此嘲讽llm的“幻觉” (Hallucination) 。 (其实,人类自己在这方面也相当不差🤣) 作为用户,以及有大量学习经验的人类学习者,我们可以根据实际经验,把 llm 幻觉大致分为两种:一种是预训练阶段,llm学习并记住了错误的知识,然后把错误信息当作正确知识,用于回答中(人也一样);第二种是guessing,而不是直接说“我不知道”,或者给出多种可能性的不确定回答(人也一样)。 openai 分享了对llm幻觉的研究。llm 幻觉的根本原因,不只是模型本身,而在两个地方: 一个是llm的预训练阶段,数据局限性导致的幻觉;llm通过学习海量文本来“预测下一个词”,对于有规律的模式(语法、编程、通用知识),llm可以学得很好;但是,对于低频的事实(例如,路人甲xxx的宠物狗的生日),这些信息在训练数据中无规律可循,导致了llm的第一种幻觉; 另一个是以准确率得分为主的评估机制(accuracy-based evals),错误地奖励 llm的“战略性猜测”/瞎猜行为,错误地惩罚llm 放弃回答/“我不知道”的行为,这导致了第二种幻觉; gpt-5 的一大提升,就是在消除llm幻觉上。gpt-5,学会了“谦卑”,某种意义上体现了某种程度的“元认知”:减少了“战略性猜测”行为,而选择“放弃”,直接说自己不知道。 这篇文章很有趣,值得读一读~~
polymaster
3个月前
接下来的一周里,我计划把主要开发精力放在Polymarket天气类市场,具体来说就是伦敦和纽约最高气温这两个市场,原因主要是看起来天气类市场可以解决我之前在其他市场建模时遇到的一些问题。 当然这也很像一个半途而废的开场:在过去几周的时间内,我分别清理了一年的马斯克推文数据,企图对马斯克推文速率的变化所导致市场outcomes的二元期权价格波动进行建模,也通过魔改lightning-whisper-mlx,使其达到了和YouTube官方(自动识别)几乎同步的性能和不输于官方字幕的准确度,并企图使用NLP的词袋算法和马尔可夫链对上文进行实时扫描,评估预期关键字,来以此抢跑市场。 关于前者马斯克推文数据的清洗,我写过系列推文,也得到了推上各位大佬的宝贵建议,但最终结果仍然不甚满意——因为删推和系统屏蔽,尤其是整个推文串的删除所带来的影响,从七周以前的数据就开始出现偏差,最后通过插值和不得不放弃一些偏差过大的数据,也只勉强回溯到了今年一月份,并且抛弃/插值编辑了大约三分之一的数据,这样就从源头削弱了算法的可信度,更遑论LSTM/霍克斯过程等建模方法是否真的能够如实反映市场的定价策略并且做出预测,我心中始终有个大大的问号。 而经过与NLP专业人士的深入讨论,我们对抢跑 mentions 类型市场这个方向的评估只能说是"值得一试"——毕竟这两种算法框架的原型开发周期也就一两天,但问题的核心在于信息损失的权衡。如果我们采用纯粹的传统概率模型,不做向量化和embedding处理,也不依赖基座大语言模型(主要是考虑到实时语音交易的速度要求,目前即使最快的大模型,其推理延迟加上交易决策的时间窗口可能都无法满足实时性需求),那我们就会面临一个根本性的语义理解缺陷:模型会丢失上下文的语义关联性。这种快速概率模型很容易产生一些表面上语法正确、但在特定语境下毫无意义的"概率优势"判断。比如说,当模型遇到"iPhone"和"China"这两个词时,仅从词频和共现统计来看,可能会给出某种概率分布,但如果放在完整的语境中——比如苹果发布会上讨论供应链问题或是讨论市场策略——这些词汇的实际概率权重可能完全不同。更复杂的是,每次发布会或财报会议都伴随着大量的外部信息噪声:投资者情绪、消费者预期、分析师的尖锐提问、记者的追问角度,这些都会对原本基于历史数据训练的概率预测产生巨大扰动。虽然模型性能问题理论上可以通过架构优化和混合方案来缓解,但说实话,没有任何一种技术路径能给我足够的信心说这事儿值得深入下去。即便我们不追求什么"一劳永逸"的完美架构,光是应对mention类市场那种几周一次的节奏,每次都要针对新的热点事件——苹果发布会、英伟达财报——重新准备语料、整合外部信息源,这种持续的数据工程工作就已经够让人头疼的了,而且投入产出比还很难预期。 而目前的天气类市场,似乎可以初步解决我前面遇到的数据方面的问题:首先,最热门的最高气温市场,主要是伦敦和纽约,它们都来自两个知名的机场气候采集点:无论是KLGA和EGLC,它们在几大官方数据源,无论是商用的还是政府、NOAA、英国气象局、欧盟,都有着同源的数据:它们本身在气象类数据源里面都具有自己独立的站名,无论是从气象站还是从经纬度,你都可以得到一致性很高的完整气象数据而非插值,而且历史数据稳定度极高,不会像推文那样被修改、删除和屏蔽。 其次,几个好的数据源各有千秋,起步很容易,你甚至可以直接用商用的预测,但是上限非常高,甚至是无限:这类市场往往会在一两天以前提前开出,在当天早上9-11点逐步收敛,每一注容许2°的误差,复合投注两注往往不会超过100¢,也就是你的基础投注允许4°的误差比如(30-31°,32-33°)。自研算法你也可以从简单的回归开始玩起,难度你甚至可以上到ERA5,ERA5有点像是一个地球气候的"数字孪生":它可以提供从1940年至今的、每小时一次的全球天气数据。这意味着你可以获取这两个机场过去几十年的详细天气状况,例如气温、风速、风向、湿度、气压、降水等,当然也会受限于算力,但这里面的核心利润来源(alpha)其实在于对于气候预报基础预报和实时矫正之间对这两地特定气候条件的一个实时矫正: 一个是KLGA的海风日:其气温受海风(Sea Breeze)的强烈影响。在春夏的晴天,午后(通常在当地时间13:00-15:00)突然涌入的海风往往导致气温在半小时到一小时内骤降3-8°F。 另一个是EGLC的低云日:EGLC会受到城市热岛(Urban Heat Island, UHI)效应影响,同时紧邻泰晤士河。这意味着它的夜间最低温和白天的最高温通常都比周边乡村地区高得多。此外,泰晤士河道有时会成为引导气流的"风管",并为雾的形成提供水汽,这些都给精确预测增加了难度。而这两个站又因为是机场站,它们都积累了丰富的实时气压、云层、湿度等数据,结合ERA5和领域内知识,理论上其实是可以专门为这两地的"小气候"去进行建模的,而不是像前面那两个我已经举步维艰的市场那样去生搬硬套机器学习方法,为了概率而去寻找另一个概率的概率。 当然天气预报本质也是一门概率科学,但是相比前面我已经"举步维艰"的预测市场,它拥有更丰富的历史数据积累和更深厚的学科研究基础。更加关键的点在于,我们可以利用自己构建的后验模型来估算真实的概率分布,然后用这个概率来修正凯利公式中的胜率参数。这样一来,我们就不是盲目地按照市场给出的隐含概率去投注,而是基于我们对天气系统更深入的理解来调整投注策略。当我们进行复合投注时,考虑到单注可以横跨两度的温度区间,而我们可以同时布局2-3注并通过不同的资金配比来构建投注组合,这样理论上最大容错空间就达到了6度——即使我们的温度预测出现偏差,只要在这个范围内,通过合理的仓位分配和风险对冲,整体策略的期望收益仍然可以保持正值。这种基于后验概率修正的凯利公式应用,结合多注位覆盖策略,确实给我们在天气衍生品市场中创造了相当大的操作空间。
宝玉
3个月前
OpenAI 揭秘:AI为什么会一本正经地胡说八道? OpenAI 最近发表了一篇名为《语言模型为何会产生幻觉》(Why Language Models Hallucinate) 的文章,深入解释了 AI “幻觉”产生的根本原因,并提出了减少这种现象的解决方案。 规则的“锅”:AI 被鼓励去猜测,而非承认无知 文章指出,大语言模型之所以会产生“幻觉”,是因为我们现有的训练和评估方式存在一个根本性问题:它奖励猜测,而不是鼓励模型承认自己的不确定性。 大多数评估体系衡量模型表现的方式,都无形中让模型养成了“猜答案”的习惯。当模型的评分标准只基于准确性时,它为了拿高分,自然会倾向于在不确定的时候蒙一个答案,而不是诚实地回答“我不知道”。 问题的根源:来自“预训练”阶段的先天不足 这种“爱猜测”的习惯,其实在模型的“学前教育”阶段,也就是 预训练 (pretraining) 过程中,就已经埋下了种子。 在预训练期间,模型通过预测海量文本中的下一个词来进行学习。但问题在于,这些学习材料并没有为每一句话贴上“真”或“假”的标签。这使得模型很难区分哪些是有效陈述,哪些是无效信息。 这个挑战在处理那些偶然出现的、低频事实时尤其突出。比如,某个特定宠物的生日是哪天?这类信息无法单靠语言模式来预测,模型只能去“编造”,而这正是幻觉的直接来源。 未来的出路:教会AI保持“诚实” 研究人员总结道,要解决幻觉问题,就必须更新那些只看重准确率的评估方法,让新的评分机制不再鼓励猜测。如果主流的评估“排行榜”继续奖励那些侥幸猜对的行为,那么模型就会继续学习并依赖猜测。 他们强调,幻觉并非AI不可避免的缺陷。语言模型完全有能力在不确定的时候选择“弃权”,而不是胡说八道。我们需要做的,是创造一个能鼓励这种“诚实”行为的环境和规则。