Yangyi
2个月前
这事儿有点意思… 50 位来自字节、阿里、腾讯等机构的 AI 研究员,联合发布了一份 300 页的论文,里面有些关于代码模型和 Agent 的结论,挺出人意料。 关键点: > 小模型也能打败大厂的专有模型 RL(特别是 RLVR)让小开源模型在推理方面超越大模型。 一个用 RLVR 在高质量验证问题上训练的 14B 模型,可以匹敌 OpenAI 的 o3。 > 模型学 Python 有点吃力 预训练时混合语言模型是好事,但 Python 和静态类型语言不太一样。 语法相似的语言(Java 和 C#,或者 JavaScript 和 TypeScript)能产生很好的协同效应。 如果把 Python 大量混入静态类型语言的训练中,反而可能因为 Python 的动态类型而适得其反。 > 语言之间有差异(代码 Scaling Laws) 让模型精通一门语言所需的数据量,很大程度上取决于这门语言本身。 论文认为 C# 和 Java 更容易学习(所需训练数据更少)。 Python 和 JavaScript 实际上更难学,有点讽刺(但你会发现 AI 最常被用于这些语言 😂)。 > MoE vs Dense(能力 vs 稳定性) MoE 模型容量更大,但在 SFT 期间比 Dense 模型更脆弱。 训练中的超参数对 MoE 模型的影响更大,而 Dense 模型更稳定。 MoE 模型还需要持续调整学习率,以避免路由不稳定。 > 代码模型默认是「不安全」的 在公共代码库上训练,会让模型学习到多年积累的不安全编码模式。 安全微调通常效果不佳。 模型可能拒绝写仇恨言论邮件,但会很乐意生成一个存在 SQL 注入漏洞的函数,因为它「能用」。 > 结构比内容更重要 在 CoT 微调中,模板和逐步推理模式比推理的事实性更重要! 模型实际上学习的是分解问题的「认知模板」。 为推理创建合成训练数据时,逐步结构(「如何做」)比确保每个中间事实都完美更重要。 > 「Lost in the middle」问题仍然存在 新模型支持更大的上下文,但当重要代码位于 Prompt(或上下文)中间而不是开头或结尾时,准确性仍然会下降。 > 多 Agent 辩论减少幻觉 对于复杂的软件工程任务来说,这明显更好。 我认为设置辩论非常关键,如果调整不当,甚至可能导致 Agent 强化幻觉。 > 代码安全上的「对齐税」 对齐可能会降低一般的编码能力。 论文实际上提出了一种解决方案,以减轻这种税收的方式进行对齐。 想了解更多细节,可以阅读完整论文。
Yangyi
2个月前
一个人能写什么,分享什么 是来自于他的输入,也就是他的上下文 每天关注优质的内容,去了解行业前辈的见解,去读书获取古人的思考,去Youtube看人们的最佳实践,去看牛人大佬的访谈了解他们的认识 是这些上下文,再加上个人经历的故事,塑造了一个人的见解,思考,和洞察 然后如果这个人还愿意用用费曼学习法,大概率就会成为自媒体 写作,从不是为了吸引什么样的观众而塑造内容,反过来,他只是为了找到志趣相同共振的人罢了 以前的年代里,作者并不会被任何「曝光量」,「评论」的数据裹挟,只是为了让自己的精神世界有深入一点儿的思考 如果无法和文字独处,也就无法达到自己的欢喜 「倘若没人知道,你还会做这件事吗?」 试图问问自己这个问题,就会挖掘到背后的动机 或许你在追逐的并不是兴趣带来的幸福,而是希望被看见的假象,但我亲爱的朋友,写作的真正目的,可能并不是为了取悦大众,而是找到共鸣啊,就像通过文字召唤出你希望出现在生命中的那群同频者 你有没有想过,触达的越广泛,灵魂反而越被稀释? 因为那独特的文字背后,往往只是少数人的共振 能被广泛传播的,是因为一帮牛人在背书,就像大家都说道德经,金刚经,易经,非常好,非常妙 但真正又能有几人去读? 人们更多习惯于去通过其他老师来降维获取这些信息 大众了,自然就会被稀释的 所以你持续写作的奖励函数,究竟是自洽,还是流量呢?
Yangyi
3个月前
如何突破人生的第一个100万? - 年薪 5 万,工作 20 年 - 年薪 10 万,工作 10 年 - 年薪 25 万,工作 4 年 打工曾是稳定且清晰的,如果你为相信你的人工作,且你也相信他们,这可能是建立美好生活最稳妥的方式。 但现在即使是好工作也伴随着大量的风险。由于AI带来的各种组织重组、AI 自动化带来的裁员,可能过往明确的路径已经不那么可靠了。 图中下半部分乍看之下显得有些简单: - 5,000 人购买 200 元的产品 - 2,000 人购买 500 元的产品 - 1,000 人购买 83 元的月度订阅 - 300 人支付 278 元的月费 这些数字看起来似乎可以互换,但其实业务模式截然不同 - 200 元的产品靠分发渠道,因为你需要大量的买家和源源不断的新关注 - 500 元的产品重点是感知专业度,因为只有当人们觉得东西是为他们量身定制时,才会花这么多钱 - 83 元的订阅依赖持续的实用性客户必须每个月都在续费 - 278 元的月度服务依赖交付结果,因为支付这个金额的人期望他们的生活或业务发生清晰且有意义的转变 虽然每条路都需要信任、留存和价值,但重心却有所不一样。这也正是为什么很多人实现不了目标的原因。 问题并不在于人们选择了“坏点子”。更多的是在于选择了点子后,却没有理解这些点子对运营方式有不一样的要求。 - 订阅制的产品会将你置于一条必须每月交付价值的路径上 - 200 元的产品会将你置于一条分发成为主要瓶颈的路径上 - 高端服务会将你置于一条真正的重头戏是销售而非构建 想法固然重要,但营销同样重要。 当你选择一个想法时,你实际上是在选择你将赖以生存的营销方法,而太多人做出了选择,却没意识营销策略有所不同 如果我现在要从0赚到100万,我不会先去思考一个创业想法,我会看着这张图表,决定哪条路径符合我的优势运作策略。 然后,我会选择一个在那条路径上行得通的想法。想法和营销策略必须匹配。 大多数人先选了方向,后来才发现收到营销策略制约,结果举步维艰。 AI 正在悄无声息地改变着这一切。 十年前,探索这些路径中的任何一条都意味着要围绕这个点子建立一整套支持结构。人们必须打磨故事、包装报价、设计获客路径、测试漏斗、收集反馈并改进销售话术。 这些没那么难,但它很慢,如果想要加速,每个环节就需要不同的人(和大量的资金)。 现在的瓶颈不再是人才或工具。现在的瓶颈在于你是否能做出清晰的决定。 如果你能做到,你可以自己生成实验的每一个部分,并同时运行多个版本。 当成本降低后,最明智的举动不再是规划完美的点子,而是进行几次可控测试,看看哪个背后真正有能量。清晰的决策力就是这个时代的护城河。 如果今天我们来设定100万的目标,可以先用三个不同的想法来测试 200 元的路径,通过社交渠道推广,看看是否能自然传播。 也会同步测试 500 元的路径,创建一个解决痛苦问题的简单方案,直接推销给那些已经感受到这种痛苦的人。 继续测试 83 元的订阅路径,推出十种onboarding的引导页,直到有一种能留住人进行付款。 我们不必保护这些想法中的任何一个。也不用聚焦它们中的任何一个。去会观察哪一个显示出向上的拉力,然后毫不犹豫地放弃其他的。 这也是我在最优秀的构建者身上看到的操作系统: 找到路径->开发原型->简单发布->快速验证 选择一条路径。制作一个简单的原型。把它发布到有潜在客户的地方。 在速度、清晰度和响应率中寻找证据。 如果它中了,你就聚焦。如果没中,你立刻走人。死磕是一种傲慢,顺势而为才是智慧。 AI 不仅让构建变快了,它还消除了尝试的成本。你不需要六个月。你不需要深入思考。你不需要完美的想法。你只需要比周围的人用更清晰的思维去进行更多的测试。 当测试变得廉价时,赢家是那些放下自我、迭代最快的人。 重点是选择一条你实际上能维持的路径,一个你实际上能证明合理的定价,以及一个符合你工作方式的想法。 当这三者连成一线时,生意就不再感觉像是一场赌博,而开始感觉像是你可以经营多年的事业。 通往百万富翁的路径一直都很简单。它们过去之所以遥不可及,是因为每一条都需要大量的时间、金钱和整合。 现在,你可以足够快地探索它们,看看哪一条适合你,而不是强迫自己进入错误的那条。这才是真正的优势。 你不再是将你的人生押注在单个点子上。你是在进行小规模、真实的测试,直到正确的想法和正确的营销相匹配。 赚到一百万的感觉仍然像是在推着巨石上山。但这并不会让山变小,它只是让你避免了把巨石往错误的方向推了五年。 大部分的痛苦来自于爬错了山,而不是来自于攀登本身。
Yangyi
3个月前
费曼学习法为什么有效 我觉得最重要的一件事 是它有一种很明确的反馈信号 如果一个信息,我从其他地方学到了,但我却没办法自然而然的讲述给别人,并让他人理解,那这个信息我肯定是没理解的 比如一个方法论有五个元素,我说第一遍的时候,可能还会查原出处 第二遍的时候,发现总有1-2个元素记不住 第三遍的时候,会有一些逻辑性做分类,然后就能陈述了 第四遍第五遍的时候,基本就是自己的东西了,然后还会在这个基础上加入自己这个时空的理解,比如当下时间,环境,当下角色,对这个信息不一样角度的阐释,然后这个旧时代的信息就会有了新时代的灵魂 有一些信息是从实践中抽象,归纳总结的 有一些信息,是从书中获悉,结合演绎的 但不论怎样,费曼学习法是一种检验,它虽然无法确认人们是否真的理解了这个信息(需要实践),但它一定能证伪,当我无法叙说这个理论或框架时,我一定是没有理解 这就是费曼学习法的强大之处 它比做题更容易被验证,因为做题是结果导向,过程可以黑盒结果可以靠蒙 但费曼学习法是过程导向,讲不出就是讲不出 讲的出,又分听的人是否能有所收获 如果讲的东西还能按照参考受众的理解程度差异,形成不一样的表述,让受众都能有所受益 那么说明这个信息至少是在表层理解了 至于说是不是真的掌握,可以运用自如在实际生产当中,那就需要再依靠执行来确认 当我们刻意练习费曼学习法时 我们会发现一个奇妙的事情 就是这种加深信息理解的机会 会随着费曼学习次数的增多 而不断增多 因为每次费曼学习法都是在广播 广播就会令信息传递 信息传递就会有回声 这些回声就又会为信息源头带来多次广播的机会 于是费曼学习法就持续强化了 这个概念就慢慢形成了一种肌肉记忆
Yangyi
3个月前
最近开始恢复健身,跟私教练了几周之后,私教抱怨说客单价提成啥的都大不如前 以前健身房人多 大家也花钱 一个月甚至有的赚小十万 现在买课的少了 买也是可着一点点买 公司给的提成也少了 我就问他 你有没有思考过 你的收入是什么构成的 他摇摇头 说没咋想过 但干到死可能一个月也就两三万吧 我说 收入=时间*单价 你哪怕一天带18节课 单价在那里被锁死了 这样看 只要你不突破模式 你就只有两个选择 第一是提高单价 那么你就得有名气 有很多人主动找你 你就可以提价 或者你换个人群 你去给明星当私教 你有这种路子吗 他想了想 说没这种路子 第二是把时间上加杠杆,比如把你的服务转化成视频课,转化成图书,或者一次性分发很多人,比如你可以1v1万上课,那就是直播了,很多教师就是这样突破千万收入的 他又摇了摇头,哥,太难了 我说,这一点儿也不难,如果你想做,有很明确的路线,你给我私下约一周课,我就教教你 这兄弟也是实在,他说哥你说吧,我觉得能行我肯定免费带你一周 我问他有啥特长,想做啥人群? 他说他喜欢做康复和体态修正 我说那你就做那些电脑族的体态修正嘛,这就找到定位了,然后你就去写公众号,把你了解的体态问题逐一写清楚,怎么定位自己的体态问题,怎么做运动康复修正,怎么做康复计划 你就开始写,一边写的时候,也在整理自己的体系,也在梳理自己的方法论,甚至有时候你没得写了,江郎才尽,还会倒逼你去搜索最新的体态康复方案,去学习 你就可以配合你的学员实践,继续写,就这么写 他说他以前做过抖音 我说你做抖音谁看呢?你怎么冷启动呢?你做两天就自闭了 因为没有正反馈 他说确实是这样的 没人看 也坚持不下去 那公众号就能坚持吗 这就是公众号不一样的地方 因为你有自己的学员 你有健身群 那你就可以进去洗他们 把他们洗成你的粉丝 你的内容在微信上很容易被传播 不像抖音 这样你就能快速冷启动 公众号文章里早期你可以卖补剂,卖体态纠正的背背佳,卖体态修正计划和咨询 总会有一些成交,也就会有学员的优秀案例 你就又有了前后对比的学员案例背书,这事情就能滚动了 学员多了就分配给你信得过的教练解答 就可以开体态纠正训练营,搞直播课了 你只要开始搞直播,就会有切片,就能继续分发抖音小红书,慢慢滚动 当你真的想开健身房那一天,你还缺客户嘛? 他两眼一亮,问我,哥你咋会懂健身行业? 我说,我看着卓叔增重就是这么一步步走过来的,从公众号到B站到深圳的健身房,一步步突破自我 如果你保持好奇心,你会能了解很多白手起家的人是如何一路打怪升级的 这个教练给我免费刷了三节课 但我不知道他会不会真的去做公众号 如果在读故事的你,真的想做公众号 我真的推荐把写作当作一种费曼学习法的实践 让自己多去阅读,多去思考沉淀,哪怕是依靠AI 这就是我做公众号ai矩阵系统,为什么一定要有人工审阅环节 我不想制造互联网垃圾,我希望每个人的内容,都有自己的见解和温度 如果你也是这样的内容创作者,欢迎使用这款产品👇
Yangyi
3个月前
自从学了脑科学后,我发现这个世界根本不存在执行力差。 每一次拖延,本质都不是懒惰,而是大脑在抵抗模糊。 大脑只会自动执行一件事:已经被压缩成可预测动作序列的任务。 可预测代表它能想象出第一步,它知道下一秒发生什么,它确信自己能收尾。 只要满足这个条件,行动就不是需要意志力的选择,而是神经系统自动开跑。 问题在于,大多数人面对的目标,都是抽象的,概念化的,甚至没有入口点。 比如改进工作效率,开始做一个项目,整理房间。 这些语句给大脑的信息是空的,没有动作模型,没有场景,没有起点,没有感知信号。 对神经系统来说,这类任务没有可执行结构,它无法模拟下一秒,于是它停住。 这不是拒绝行动,而是节能原则。人脑会优先执行能立即算出路径的事情。 哪怕是刷手机,也比一个模糊的目标更安全,因为“点开→滑动→获取刺激”是一条确定路径。 确定性永远优先于重要性。不是价值判断,是神经算法。 拖延是风险规避,不是性格缺陷。当任务是模糊的,大脑激活的是不确定带来能量损耗的防御机制,而不是我不想做的情绪。 所有抗拒,都不是对行动本身,而是对没有入口点的混沌。 所以改变不是强迫自己去做,而是把目标结构化成大脑能立刻执行的程序。 一旦任务变成一条明确的动作路径,大脑会自动启动,甚至不会产生拖延的机会。 而这,只是消除了模糊。