𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

统计数据

907
文章
0
粉丝
0
获赞
7568
阅读
既然RL有reward hacking(奖励投机)的风险,提示词工程是不是更好的方法呢? 答案是:它们不是相互替代的关系,而是两种有着不同目标、成本和适用场景的工具。没有绝对的“更好”,只有“更适合”。 那么问题来了:是应该投入更多精力去“教”(通过微调/RL)模型,还是去“引导”(通过提示词工程)模型? 1. 为什么奥数论文用提示词工程? 因为奥林匹克数学竞赛(IMO)的问题极其困难、开放且变化多端。为这类问题设计一个能覆盖所有情况的、公平的、自动化的奖励函数几乎是不可能的。你如何量化一个“思路巧妙但步骤错误”的解法的奖励?因此,利用人类的智慧和洞察力,设计一个引导模型进行深度思考和自我批判的提示词流程,是当下最现实、最有效的方法。这本质上是把奖励信号的判断工作交给了人类提示词工程师和模型自身的(被引导的)反思能力。 2. 既然如此,为什么还要用RLCR? RLCR解决的问题更具有普遍性和基础性。我们希望模型内化一种能力,即“诚实地评估自己的不确定性”。这是一种元认知能力。对于成千上万种日常问答、信息检索等任务,我们不可能都去设计复杂的提示词。我们更希望模型本身就具备这种可靠的特性。 •场景一(用RLCR):一个在线客服机器人,每天回答上万个用户问题。你希望它在遇到自己不确定的问题时,能主动说“我不确定,正在为您转接人工客服”,而不是胡乱回答。在这里,通过RLCR训练一个可靠的模型,一劳永逸。 •场景二(用提示词工程):你要用LLM帮你解决一个极其专业且一次性的问题,比如为你的公司设计一个复杂的期权定价模型。这时,你会投入大量时间去设计提示词,引导模型一步步思考,就像在指导一个虽然聪明但缺乏经验的实习生。
一个Vibe Builder的终极摇摆: 状态一:卧槽,见证神迹!是我看见时间线上那一个个闪亮的demo或vibe或hype; 状态二:淦,人间炼狱!当我一个月企业调研看到的AI落地惨状,甲方看到的智能不忍目睹,乙方面对LLM的幻觉已经魂飞魄散; 同样是面对着这个叫“LLM”的神/兽,为什么有些人的体验是“如沐春风,效率飞升”,而我们这些搞Agent的,体验却是“血泪交织,九死一生”? LLM之神——那与生俱来的两大“原罪”: 1.“缸中之脑”的诅咒(上下文窗口有限): 它的记忆,比金鱼还短。它的整个世界,就是一个小小的、临时的“上下文窗口”。聊着聊着,它就能把自己五分钟前说过的话忘得一干二净。它是一个活在永恒“当下”的失忆者。 2.“提线木偶”的宿命(单轮次交互的激活路径单一性): 它没有自发的“意图”。你不戳它(Prompt),它就绝不动弹。它的一切行动,都只是对你这单一“激活”的最优回应。它是一具被动的、等待指令的提线木偶。 而我们“agent工程师”的天职,就是为了克服这两大原罪。 我们的工作,就是为这个失忆的、被动的、活在语言洞穴里的“神”,打造一个能让它“看似”拥有了记忆和主动性的——外部世界模拟器。 面对这从未有过的异类心智,我们要不就是心理投射过多,过度拟人化;要不就是彻底失守,躺平等AGI,过度神化!
这个所谓AI知道自己不知道,如果是deep mind的模型的表现,我可能真兴奋了,但是出自OpenAI之口,不能不怀疑是一场精心设计的“Hype” 咱们再来阴谋论一下。 为什么OpenAI要在这个时间点,特意强调这个“我知道我不知道”的特性? 1.抢先定义“好AI”的标准: 它在给市场和用户洗脑。以后,判断一个AI牛不牛逼,可能不再是看它会不会,而是看它“会不会认怂”。它在试图把自己的一个“特性”,变成整个行业的“标准”。所有不会“认怂”的AI,都可能被贴上“人工智障”的标签。 2.掩盖可能的短板: 有没有一种可能,它这套基于“自然语言”和“多智能体商量”的系统,在面对那种纯粹的、超越人类语言直觉的硬核逻辑题时,天生就容易“卡壳”?而它所谓的“认怂”,只是一种更优雅的“卡壳”方式?它把一个可能是“Bug”的东西,包装成了一个“Feature”。 3.为GPT-5造势的完美钩子: 这简直就是教科书级别的营销。它留下了一个巨大的悬念:“一个已经会‘认怂’的AI,离真正‘无所不知’还远吗?” 这钩子,能让整个科技圈,一直惦记到GPT-5发布的那天。 你们说呢?如果是真的,而不是一句系统提示词在作祟,那这他妈不是代码,这不是算法。这是苏格拉底,是孔子,是人类哲学史上,最牛逼的那帮人,才敢说的骚话。