推荐大家试下,把下面整个提示词发给Claude Code。 用AI语音输入法或打字耐心回答完问题。 能找出很多自己没意识到的问题,且能持续更新到CC的记忆系统。 感兴趣的可以一起试试。 ----- 复制下面提示词发给 CC 或OpenCode----- 我想学习这个方法并写入到Claude md文件(全局): TELOS不是缩写,是个希腊词,意思是"目的"或"终点"。 是一套结构化的自我访谈框架。 帮你把"你是谁、你想要什么"这件模糊的事情,变成AI可以理解和使用的上下文。 核心是六个层次的问题,从问题到行动: 1. Problems(问题) 不是"你的目标是什么",而是"什么让你不爽"。 人的很多动力都来自这里。 你想减肥,是觉得"我现在的状态不对"。 你想做产品,是因为"现有的解决方案很烂"。 Daniel说这个问题要具体。 - 我父母每人打三份工,没时间陪我,这导致了什么 - 现在的漏洞管理工具根本不懂工程团队怎么工作 - 大部分人觉得自己的想法不值得分享 可以是个人问题,也可以是世界问题。 都写下来。 2. Goals(目标) 你想改变什么? 不是"你想要什么",而是"你想改变什么"。 这是从问题到方向的转化。 比如: - 问题:大部分人觉得自己只是打工的,不是创造者 - 目标:激活更多人,让他们意识到自己也有值得分享的想法 Daniel的核心目标就是"提高人类激活度"(human activation) 贯穿他所有的项目: ① PAI项目:让个人能建自己的AI基础设施 ② Fabric项目:开源AI工具 ③ Unsupervised Learning:分享想法和洞察 3. Challenges(挑战) 什么在阻止你? 这是很多人跳过的一步,但特别关键。 如果你不明确说出障碍,AI就没法帮你绕过去。 障碍可能是: ① 技术的:我不会编程 ②资源的:我没时间 ③ 心理的:我觉得自己不够格 ④ 系统的:现有工具太复杂 Daniel的例子: 他想让更多人用上个人AI系统。 但障碍是"大部分人不是技术背景,命令行对他们来说太难了"。 所以PAI的设计就要考虑这个,要让非技术人员也能用。 4. Strategies(策略) 你打算怎么做? 从"想要"到"行动"的桥梁。 不是具体任务清单,是方法论层面的。 比如Daniel的策略: ① 从开源项目开始,降低门槛 ②用Markdown文件而不是数据库,保证可移植性 ③ 先解决自己的问题,再推广给别人 ④ 持续分享过程,激活其他人 5. Projects(项目) 你现在在做什么? Daniel会列出: ① PAI:个人AI基础设施框架 ② Fabric:AI工具集 ③ Unsupervised Learning:周报 ④ 客户咨询工作 ⑤ 漏洞赏金研究 每个项目都对应回目标和策略。 6. Workflows(工作流) 你每天实际在做什么? Daniel说这个特别重要,因为AI要帮你,就得知道你的日常是什么样的。 他的工作流: ① 早上散步时用Limitless录音捕捉想法 ② 回来后让AI整理这些想法 ③ 用"议会辩论"功能让多个AI角色挑战这个想法 ④ 实时编辑,形成文章 ⑤ 一键发布到 X 和LinkedIn 这整个流程,从"想法"到"发布到社交媒体",都在AI的支持下完成。 为什么这套框架有用 1. 给AI提供了"北极星" 每次你问AI,它不是在真空中回答,而是知道: ① 这个问题和你的哪个目标相关 ② 你在哪个项目的语境下问的 ③ 你的障碍是什么(回答要避开这些坑) Daniel举了个例子:他的朋友是心脏科医生,也做漏洞赏金。 当他把自己的TELOS加载到系统后,AI知道: ① 他的目标:找到更多漏洞,赚更多赏金 ② 他的专长:客户端漏洞 ③ 他的工作流:在诊所间隙做测试 ④ 他的技巧:一些独特的测试方法 现在他只需要给AI一个目标公司,系统就会: ① 用他的方法论去做侦察 ② 专注于客户端漏洞 ③ 生成符合他风格的测试脚本 ④ 按他习惯的方式组织结果 结果:发现的漏洞数量大幅上升。 2. 让AI的回答有"方向感" Daniel有个概念叫"通用算法"(Universal Algorithm): 从当前状态到理想状态 因为每次AI帮你做事,本质上都是在执行这个算法: ① 当前状态:你现在在哪里 ② 理想状态:你想去哪里 ③ 中间过程:怎么到达 TELOS就是在定义这个"理想状态"。 没有TELOS,AI只能给你通用答案。 有了TELOS,AI知道"对你来说"的最佳答案是什么。 3. 它会进化 这是最酷的部分。 Daniel的系统有个"升级技能"。 当他: ① 看了一个YouTube视频 ② 读了一本书 ③ 学了新技术 他可以让AI: 1. 读取这个新知识 2. 对照他的TELOS 3. 建议如何升级整个系统 比如他读了本关于修辞学的书,AI会说: "根据这本书的原则,我建议: ① 在你的写作技能里加入这些修辞手法 ② 调整博客工作流,加入修辞检查步骤 ③ 更新你的风格指南" AI在帮AI自己变得更懂你。 具体怎么做? 第一步:倾倒(Dump) 找个安静的时间,用语音或文字,回答这些问题: ① 什么让你不爽?(个人的、工作的、世界的) ② 如果你有魔法棒,你会改变什么? ③ 你现在在做什么?为什么做? ④ 什么在阻止你做得更好? 第二步:结构化 把这些内容按TELOS框架整理: # TELOS ## Problems - 我觉得大部分人... - 现有的工具... - 我自己总是... ## Goals - 我想帮助... - 我想创造... - 我想学会... ## Challenges - 技术上:... - 时间上:... - 心理上:... ## Strategies - 通过开源... - 从小项目开始... - 持续分享... ## Projects - 项目A:... - 项目B:... ## Workflows - 早上:... - 写作流程:... - 研究流程:... 第三步:加载到系统 这就是PAI的核心。 每次启动Claude Code(或其他AI系统),它会读取这个TELOS文件。 Daniel说他的TELOS大概10,000个token,每次启动都加载。 第四步:迭代 用一段时间后,你会发现: ① 有些目标变了 ② 有些障碍消失了 ③ 有些新问题出现了 定期更新TELOS。 Daniel建议至少每个月review一次。 Daniel说TELOS最重要的作用不是"让AI更聪明",而是让你更清楚。
Huggingface今天的最热论文,AI大白话解读: DeepSeek-R1之后,GRPO成了最热的训练方法。 但这个方法有个大坑:会系统性地"看错"题目难度 会导致模型在该努力的地方偷懒,在该放手的地方死磕。 先说GRPO怎么工作的 给模型同一道题,让它答8次,算个平均分当基准。 高于平均的答案就鼓励,低于平均的就惩罚 问题就出在这个"平均分"上。 想下,做一道超难的题,8次只对了1次 这时平均分极低,那个正确答案的价值就被严重低估了 反过来,简单题8次对了7次,平均分很高,错误答案的问题也显得没那么严重。 数学上可以证明 只要题目正确率不是恰好50%,这个估计就一定是偏的 正确率越极端,偏差越大。 正确率低于12.5%的超难题,偏差几乎是必然发生的 这是方法本身的bug 可能会说,多生成几个答案不就行了 理论上对,但算力受不了 实际训练中大家都用8个答案,因为生成128个答案成本太高 但8个答案的情况下,有超过60%的概率会出现明显偏差 真正的问题在哪儿? 那些最难、最能推动模型能力边界的题目,得不到足够的训练 模型一直在舒适区打转,刷简单题刷得很开心。 这就是为什么,模型训练到后期提升越来越难。 解决方案 论文提出一个叫HA-DW的方法。 核心想法:不要只看当前这8个答案,要结合模型历史表现 维护一个动态"能力基准",知道模型现在大概什么水平 然后根据题目相对这个基准,动态调整权重。 难题的正确答案,多给点奖励。 简单题的错误答案,多给点惩罚。 效果立竿见影 同样是8个答案,加了HA-DW的GRPO,效果超过了用16个答案的普通GRPO 算力省一半,准确率还更高 如果你在做RL训练,有三点启发: ① 别盲目堆rollout数量,先想想样本质量 ② 引入历史信息,单批次的视角太局限 ③ 有时轻量级修正,比大改架构更有效 最后 训练AI和教育人很像,不是让一直刷会做的题,要在恰当难度上持续挑战。 (感觉和在学习区学习,理念一样) 论文见评论