向阳乔木
6个月前
投资主题阅读群第二本推荐的书是《会走路的钱》,今天断续读了几章,不少观点很有意思: 预测经济最准确的方式并不是研究复杂的经济指标,而是观察富人的投资行为。 这些人比普通人更敏锐地感知未来的走向,因为他们有更大的利益驱动去深入思考。 当你想预测某个投资品未来的价值时,关键是要看未来的购买力在哪里。 你需要关注那些未来必须购买这项资产的人群,评估他们未来的财富增长潜力。 不要和有钱人拼体力,要和未来的有钱人混在一起,比他们早一步看到他们的需求。 不要投资年轻人不感兴趣的标的。 核心是要盯着年轻人看未来的机会,这不禁让我想现在的年轻人的需求是什么? 除了虚拟货币,有朋友提到:纸片人、谷子、黄金、养猫/养狗? 感觉后续需要研究。 另外,书中提到:房地产市场通常滞后于股市6到12个月,最佳买入时机往往不是在底部,而是在确认上涨趋势后,大约在上涨5%左右的时候。 一定要投资,不要单纯的储蓄,单纯的储蓄策略往往会让财富缩水。 书中提到的中年职业危机,确实存在: 三到五年工作经验的人最受欢迎,因为他们已经具备了基本技能,但还没有形成固化的思维模式。超过五年的经验往往会遇到边际效用递减的问题。 书中关于幸福感的说法也比较认同:幸福感不在于当前拥有多少财富,而在于对未来的期待程度。自我实现是最高级别的快乐。 无论是家庭关系还是企业管理,都需要一个清晰的"愿景"来调动积极性。 这就像CEO需要给员工画出美好蓝图一样,家庭成员之间也需要共同的期待。 --- 继续读这本书,感觉实操性很强,虽然作者的不少做法很极端。
向阳乔木
6个月前
根据纳瓦尔引用MATT MCDONAGH的一篇夸Deepseek的文章。 用Gemini flash thinking 01-21,模仿 Mark mason粗口风格重写,别有一番风味 哈哈哈! AI 领域刚TM发生了一件大事,别怪我没提醒你 好吧,我本来不想显得大惊小怪,或者像个标题党… 但TMD,AI 领域(以及真实世界)刚刚发生的事儿,真他妈的要改写人类发展剧本了。 我发誓要冷静点儿 😔 (好吧,我尽力了) 但没办法,真的忍不住啊。 2025 年 1 月 22 日,DeepSeek 这帮家伙扔出了一篇论文,题目是《DeepSeek-R1:通过强化学习TM的激励 LLM 的推理能力》。 游戏规则TM的真变了。 不是因为他们跑分有多牛逼——虽然那确实野到没边了。 甚至也不是因为他们的训练成本跟模型性能比起来,简直便宜到离谱—— 虽然这已经够让人震惊了,简直就是TM的杠杆效应。 不,真正让整个行业都震了一下子的是,DeepSeek 到底是怎么做到这一点的。 我们居然可以 TM 培养 通用推理这种智能。 DeepSeek-R1-Zero 直接在一个基础模型上用强化学习搞训练,压根没用什么狗屁监督微调(SFT),这跟以前那些老套路完全不一样。 这种新搞法,模型就能自己去探索什么“思维链”(CoT)推理,还能搞出什么自我验证、自我反思这些花里胡哨的能力。 这意味着啥? 推理能力这玩意儿,可以用强化学习(RL)来激励,根本不用死乞白赖地依赖那些监督数据。 要是你还没觉得牛逼,再读一遍,好好品品。 (稍后我们再来扯淡这玩意儿的影响。) 这些模型展现了一种自我进化的过程,通过强化学习(RL),它们自然而然地增加了思考时间,还TM发展出了各种复杂的推理行为…… DeepSeek-R1-Zero 的某个中间版本甚至出现了“顿悟时刻”,这模型学会了重新评估自己一开始的路子, 这TM就显示出强化学习(RL)有多牛逼了,能搞出那些意想不到的、骚操作级别的问题解决策略。 这凸显了强化学习(RL)的潜力,它能让模型自主发现解决问题的套路。 就像小孩儿一样学习,然后变成一个更TM更TM聪明的成年模型。 DeepSeek-R1 还TM加入了什么冷启动数据和多阶段训练,进一步增强推理性能。 这模型先是用高质量、长篇大论的“思维链”(CoT)例子搞了一波微调,然后再进行强化学习(RL),结果可读性和性能都TM上去了。 这说明啥? 说明精心设计的训练流程,把监督微调(SFT)和强化学习结合起来,就能搞出既牛逼又好用的模型。 DeepSeek 的研究表明,大模型搞出来的那些推理模式,可以成功地被提炼到小模型里。 他们用 DeepSeek-R1 搞出来的数据,微调了一些开源模型,比如 Qwen 和 Llama,就搞定了。 这意味着,大模型的推理能力可以转移到更小、更高效的模型上,这对实际应用来说,非常重要。 DeepSeek 的研究地表明,LLM 真TM 可以通过强化学习,自然发展出通用推理能力。 自我进化过程,以及训练中冒出来的那些复杂行为,突出了模型自主学习和TM精进问题解决策略的潜力。 就算你是个“美国优先”的拥趸,天天担心中国在关键领域超车,DeepSeek 的研究成果也TM意义重大,因为它为人工智能的未来发展指明了一条充满希望的路子。 他们搞不好已经TM指出了通往 AGI 的路。 有人说,DeepSeek 不过是消化了 OpenAI 的模型,然后用更少的成本,复制了他们的智能,以及人类参与强化的那些好处。 你也可以说,OpenAI 为了搞 ChatGPT ,TM爬遍了互联网,现在 DeepSeek 又TM爬了 ChatGPT。 一切都是公平的,对吧? 根据论文,DeepSeek-R1 的训练过程分了好几个阶段,每个阶段都TM是为了增强模型推理能力的不同方面。 它TM建立在 DeepSeek-R1-Zero 的基础上,后者本身就用了一种全新的、从头开始的训练方法(名字都TM告诉你了),然后再进一步优化,才搞出了最终的 DeepSeek-R1 模型。 最初阶段,重点是纯粹的强化学习(RL),没有任何监督微调(SFT)。 据说,基础模型是 DeepSeek-V3-Base。 他们用的强化学习算法是“群体相对策略优化”(GRPO)。 GRPO 从群体得分中估计基线,而不是用单独的评价模型。 很多研究人员都TM用这招。 他们还搞了个基于规则的奖励系统,重点关注准确性和格式。 模型要是能用特定格式给出正确答案,就能获得奖励,包括把思考过程放到 <think> 和 </think> 标签里。 模型用了一个简单的模板进行训练,要求它先搞出推理过程,然后再给出最终答案,没有特定内容偏见。 这种纯强化学习过程的结果是啥? 结果就是模型在解决复杂推理任务时的能力TM提升了,还TM具备了自我验证、反思以及生成长链思维(CoT)等骚操作。 但是,DeepSeek-R1-Zero 也TM出现了一些问题,比如可读性差,语言混乱—— 搞这玩意儿真TM不容易! 为了解决 DeepSeek-R1-Zero 的问题,进一步提升推理性能,他们为 DeepSeek-R1 开发了一个多阶段训练流程。 这里的关键词是“冷启动”。 在应用强化学习之前,他们收集了数千个长链思维(CoT)例子,用来微调基础模型 DeepSeek-V3-Base。 这跟 DeepSeek-R1-Zero 直接从基础模型开始搞,完全不一样。 这些例子被设计成方便人类阅读,还包含了推理结果的摘要。 冷启动之后,模型进行了大规模强化学习,跟 DeepSeek-R1-Zero 用的过程差不多。 重点是增强编码、数学、科学和逻辑推理等领域的推理能力。 他们还TM引入了语言一致性奖励,以减少语言混合,尽管这稍微降低了模型的性能。 一旦面向推理的强化学习收敛了,就用检查点来创建新的监督微调数据。 这包括通过拒绝采样生成的推理数据,以及来自其他领域(如写作、事实问答和自我认知)的额外数据。 他们还过滤掉了包含语言混合、长段落或代码块的数据。 这提高了结果质量,还减少了思考时间。 模型又经历了第二个强化学习阶段,目的是提高其帮助性和无害性,并优化推理能力。 这个过程用了多样化的提示,以及结合基于规则的奖励(用于推理任务)和奖励模型(用于通用数据)。 为了把 DeepSeek-R1 的推理能力转移到更小、更高效的模型上, 他们用了来自 DeepSeek-R1 的精选数据,微调了几个开源模型,比如 Qwen 和 Llama。 这个过程只用了监督微调(SFT),没有任何额外的强化学习,就是为了展示蒸馏的有效性。 结果,蒸馏后的模型表现令人印象深刻,较小的模型在推理基准测试中超过了其他开源模型。 总结一下 → DeepSeek-R1 的训练过程是一个多阶段过程 先是用纯强化学习(RL)方法建立推理能力 然后通过高质量数据进行冷启动 接着通过 RL 和 SFT 进一步优化,最后通过蒸馏将这些推理能力转移到较小的模型中。 这种技术组合搞出来的模型,在各种推理任务上的表现,跟 OpenAI-o1-1217(写这篇文章的时候最尖端的技术)有一拼。 DeepSeek-R1 从纯粹的强化学习(RL)开始,在没有初始监督微调(SFT)的情况下,就TM发展出了推理能力,这TM是开创性的。 这表明,LLM 有一种更自然、可能更强大的学习方式,类似于人类通过探索和与环境互动来获取知识。 通过将强化学习(RL)与监督微调(SFT)和蒸馏技术相结合。 DeepSeek-R1 实现了与 OpenAI 等尖端模型相媲美的性能,而且可能只需要它们训练成本的一小部分。 这TM可能会普及先进人工智能的使用,使其对研究人员、开发者及小型组织而言,更加经济实惠,更容易TM搞到手。 基于 RL 的训练可以带来更透明的推理过程。 模型学会一步一步地“思考”,使其决策比传统的黑箱 LLM 更容易理解和信任。 而且,DeepSeek 团队还有更多“燃料”,可以尝试用这种架构达到 AGI 的速度。 自然生长的智能,可能使 LLM 更有效地适应新情况和新任务。 它们可以从错误中学习,并持续改进性能,而不完全依赖预定义的数据集。 简单来说,这就是为什么这件事很重要: 想象一下教小孩骑自行车。 你可以给他们一本详细的手册(SFT),但他们很可能通过自己尝试(RL)、摔倒、爬起来,然后慢慢进步,学得更好。 DeepSeek-R1 的训练过程也差不多——它允许 LLM 通过“边做边学”来发展自己的推理能力,从而形成更强大、适应性更强的智能。 这种方法可能彻底改变人工智能领域,带来更强大、高效和值得信赖的 LLM,可以用于更广泛的应用。 这就是通往 AGI 的道路。
向阳乔木
7个月前
向阳乔木
7个月前
发现个 AI 写爆文的技巧,找个英文世界擅长把复杂概念简单化,擅长网络写作的人,用他风格重写。 比如用Sahil Bloom出来的风格就是X thread Hook文,会用各种emoji。 用Paul Graham出来的风格语言通俗易懂的叙述文。 推荐尝试的作家风格 Tim Ferriss - 《4小时工作制》作者,以实验性、系统化的写作见长,专注生产力和个人优化。 Nicolas Cole - 数字写作界的"系统化思维大师",Ship 30 for 30 联合创始人,专注将写作转化为可复制的增长系统。 David Perell - 以"写作课程之父"闻名,创办 Write of Passage,专注教授在线写作和数字创作。 James Clear - 《原子习惯》作者,以简洁、实用的写作风格著称,专注个人发展和习惯养成。 Dickie Bush - Nicolas Cole 的商业伙伴,Ship 30 for 30 联合创始人,同样专注数字写作教育。 Seth Godin - 《紫牛》作者,以简短精辟的日更博客闻名,专注市场营销和创意思维。 Mark Manson - 《微妙的艺术》作者,以直白、幽默的写作风格著称,专注生活哲学和心理学。 Anne-Laure Le Cunff - Ness Labs 创始人,以科学导向的写作见长,专注认知生产力和终身学习。 Ali Abdaal - 医生出身的生产力专家,以数据驱动的内容创作著称,专注学习方法和数字创作。 Austin Kleon - 《像艺术家一样偷窃》作者,以视觉化写作风格闻名,专注创意和艺术生活。 Derek Sivers - CD Baby 创始人,以简洁思辨的写作著称,专注商业智慧和生活哲学。 Paul Graham - Y Combinator 联合创始人,以深度论文式写作闻名,专注创业和技术思考。 Morgan Housel - 《金钱心理学》作者,以故事化写作见长,专注金融和行为经济学。 Sahil Bloom - "Curiosity Chronicle" 创作者,以类比教学法著称,专注商业和个人成长。 Julian Shapiro - Growth Academy 创始人,以系统化写作指南闻名,专注营销和写作技巧。 David Kadavy - 《心流写作》作者,以认知科学角度写作,专注创意过程和生产力。 Tiago Forte - Building a Second Brain 创始人,以知识管理系统著称,专注数字笔记和信息组织。 Nathan Barry - ConvertKit 创始人,以实践导向写作见长,专注创业和产品开发。 Josh Spector - "For The Interested" 创办人,以策略性内容创作著称,专注创作者经济。 Marie Poulin - Notion 达人,以系统化工作流程写作闻名,专注数字生产力。 Nat Eliason - Growth Machine 创始人,以深入研究式写作著称,专注营销和个人发展。 Khe Hy - RadReads 创始人,以数据分析式写作见长,专注职业发展和生产力。 Dan Koe - Digital Writing Compass 创始人,以极简主义写作风格著称,专注个人品牌建设。 David Kadavy - Mind Management 创始人,以认知科学为基础的写作见长,专注创造力和生产力系统。 猜猜下面几张图都是哪个作家的风格?