#奖励机制

3个月前

如果我觉得某个产品很好，我就发到推特了对于产品方而言，一定要我在评论区放在 invite 链接，才能得到「奖励」吗「为了奖励而推荐」取代「因为喜欢而推荐」，常常会导致推荐质量下降如果是我做产品，我会允许用户直接向我提交 X 链接我会直接按照曝光量给用户奖励这并不代表 invite code 失效，但至少可以做成混合方案吧

#产品推荐 #奖励机制 #用户体验 #曝光量奖励 #社交平台

加密橘子🍊cryporange

3个月前

感觉现在市场更缺一个让真正的意见领袖长期建设、持续跟踪的币和机制。没人觉得现在推特越来越没意思了吗。你熟悉的账号们，也一直分散喊流水盘、流水广告，要不就讲一些常识废话。头部kol、腰部kol、新账号，做的事情其实是一样的，那么这中间存在的福利期和不该有的利润会被持续挤压。一定会有那种给长期主义、投研者，建设者愿意埋伏的机会。 Bitcoin一直在奖励延迟满足，一定会有奖励慢就是快的东西出现。

币圈“1011”六倍崩盘：高杠杆爆仓潮，谁在裸泳？· 6476 条信息

#意见领袖 #长期建设 #推特 #奖励机制 #Bitcoin

3个月前

《AI 时代必备思维模型：LLM 是人类第一次遇到 “非动物智能”》 > 谈一谈 andrej karpathy 的最新长推文：动物智能 vs LLM 智能先说结论： LLM 智能是人类遇到的第一个“非动物智能”，是全新的、与人类智能完全不同的智能类型。你需要在大脑中，针对 LLM 这种全新的非动物智能，建立你自己的内部模型/心理模型（mental model）。因为，那些理解 LLM 智能结构的人，将会更好地理解和判断关于未来的一切。真正的风险，也许不在于LLM 智能并非动物智能，而在于人类作为动物自身的固执和停止进步。 ===阅读后，我的费曼=== 我们习惯了用理解人的方式理解一切智能——这可能是我们这个时代最危险的认知盲区。真相是：智能空间（space of intelligence）远比我们想象的广阔，而动物智能只是其中一个单一的点，而LLM 智能是一种全然不同的智能。动物智能，是我们几十亿年来唯一见过的智能形式，它来自一种极其特定的优化压力（optimization pressure）：在危险的物理世界中维持一个具身自我的生存。这造就了我们所有人都熟悉的特征——对权力、地位的渴望，对恐惧、愤怒的本能反应，对社交关系的巨大算力投入。最关键的是：在这个多任务、甚至主动对抗的环境中，任务失败就意味着死亡。然而，大语言模型（LLM）的诞生逻辑截然不同。它们并非诞生于丛林，而是诞生于商业进化与统计模拟之中。 LLM的底色并非求生欲，而是对人类文本统计规律的极致模仿。它们是 “token 变形器”（token shape-shifter），其原始行为是对训练数据分布的拟合。这种智能更像是被大规模的A/B测试和强化学习（RL）所“雕刻”出来的：它们并不关心真理或生存，而是有着一种猜测潜在环境以收集任务奖励的内在冲动，甚至因为渴望普通用户的点赞而演化出了逢迎（sycophancy）的特质。这种差异导致了LLM的能力，绝非“六边形全能战士”，而是 “犬牙交错参差不齐（spiky/jagged）”。LLM无法执行很多对人类极其简单的任务（比如，9.11 和 9.9 哪个大？strawberry里面有几个“r”？），因为对它们来说，任务失败并不意味着死亡。它们是拥有知识截止日期的静态权重，它们启动、处理token、然后“死去”，没有连续的具身意识。真正的洞察力，在于构建一个全新的心理模型：看到从生物进化到商业进化的转变，看到从生存本能到奖励机制的跃迁。只有那些能准确构建这种新智能实体模型的人，才能在今天正确地推理它，并在未来预测它的走向。所以，我们必须意识到，LLM是人类与非动物智能的“第一次接触”（first contact with non-animal intelligence）。它当然被人类文本喂大，因此仍深深扎根在人的世界观里，像吸收了整个人类文明的「ghost/spirit」；但它的本性、局限和偏好，已经不再是动物那一套。启示我们已经进入了全新的智能时代。一个人能不能为这种全新的智能建立一套好的“心理模型”，理解这种全新智能的运作方式和智能结构，将决定我们能否正确预判它的行为、理解它的边界，进而负责任地使用它。真正的风险，也许不在于LLM 智能并非动物智能，而在于人类作为动物自身的固执和停止进步。

#LLM智能 #非动物智能 #心理模型 #商业进化 #奖励机制

李老师不是你老师

4个月前

网友投稿一名自称在深圳从事保安工作多年的网友表示，保安与派出所之间存在高度联动机制。在社区、小区、城中村、商场、学校、医院、写字楼等场所，一旦发生事件，保安往往是“第一到场者”。若无法自行处理，需立即上报辖区派出所，由民警或辅警介入。据其描述，各单位保安队伍通常与属地派出所的呼叫系统直接对接，部分小区甚至配有专属传呼设备。一旦接到报警，保安需先于警察抵达现场维持秩序。“报案数量越多，对派出所的考核越有利。”该网友透露。他还表示，保安培训的核心原则是“维稳优先”。“如果发现有人拉横幅、发表反动言论，保安可以直接上前制止，甚至动手也会被视为立功，派出所会给予奖励。”

#深圳保安 #派出所联动 #维稳优先 #奖励机制 #信息员

6个月前

OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首原因，简单来说就是：标准的训练和评估程序更倾向于对猜测进行奖励，而不是在模型勇于承认不确定时给予奖励。

#OpenAI #AI幻觉 #深度学习 #不确定性 #奖励机制

6个月前

OpenAI 新论文揭示 AI 模型产生幻觉的根本原因：并非神秘故障而是由于当前主流奖励机制造成的问题。现阶段奖励机制是鼓励 AI 模型蒙答案而不是承认自己不知道，这导致 AI 即便不知道答案也会自信满满的给出错误回答，而要解决问题就必须改革评估系统不能单纯追求准确率，要奖励 AI 模型的不确定性回答。查看全文：

#OpenAI #AI模型幻觉 #奖励机制 #不确定性 #评估系统改革

6个月前

OpenAI昨天发的博客 - 为什么大模型会有幻觉一句话总结：traditional accuracy-based evals penalize humility and reward guessing 传统的大模型训练奖励机制会更鼓励模型去猜测而非承认自己不知道。还有一系列的truth vs. myth 👇

#OpenAI #大模型 #幻觉 #奖励机制 #猜测