指挥 Codex CLI 干了四五个小时,把之前写的“网页音视频加速播放”油猴脚本改成了 Chrome 插件,已经提交商店审核。快速记录几点感受: 1. 聊四到五个小时,开始限制 token 了,不太够用,聊的过程中,感觉 token 消耗是个黑盒,不知道它在干什么 2. 当遇到报错时,会给它提供报错信息以及截图,但一开始总是有点不信任它能把问题搞定 3. 代码一旦改坏了,最想做的就是回到上一步,但上一步我给它安排了四五个任务,这时候要是只让它移除其中某段代码,又怕引出新的报错。事实证明,最稳妥的方式还是每个 feature 都独立进入 git 管理,否则回退会非常麻烦。feature 都进入 git 管理 4. codex 读代码读的实在是太认真了,以至于执行任务的速度特别慢,对于稍微复杂点的任务,或者同时布置了多个任务,需要 5~20min 才能搞定 5. 每次对话结束,我都希望它能自动把过程记录下来,但它做得并不好,总结的内容也很一般。 6. 80% 情况写出来的代码能直接跑;出错的那 20%,经过第二轮调教后大多也能跑通。 7. 看着它执行某个任务的空档,脑子里有了新的想法,会想让它并发执行很多任务,但又担心它处理不过来。 8. 95% 都是 AI 写代码,但有些问题它排查得实在是太慢了,会忍不住自己上手,比它要快很多。 9. 有部分任务它处理的并不好,例如让它生成 svg 图标,效果很差。 10. 表达清晰很重要,如果任务描述的过于抽象,它可能会理解错,如果跟他沟通的时候,具体到函数名或 DOM id,它的处理基本会更准确。 以上遇到的问题,基本都找到了好的解法,等后面整理了再分享。还是要多用,才能不断优化工具的使用。 总的来说,整个项目完成的速度已经是我自己的 5 倍以上,因为省略了学习陌生知识的时间。说实话,一个月花 2~3k 在 AI Coding 上,完全是值得的,相当于给自己找了个外包。
“AI 味”这件事,本质上是语言模型逃不掉的命运。因为它从诞生的第一刻起,就不是在“表达自己”,而是在“复刻统计平均”。模型的训练目标只是预测下一个词最可能是什么,它不会思考“我为什么要说这句话”,也没有任何主观意图。于是,它的语言天然带着一种“概率最优解”的味道——对,但平,准,但无魂。 更致命的是,后期的 RLHF 奖励机制会进一步放大这种味道。人类标注者倾向于给那些“中庸、安全、全面”的答案高分,于是模型被训练成了“八面玲珑”的选手:不表态、不激进、不出格。你经常看到的那些“既有优势,也有挑战”“具有重要意义”“未来前景广阔”这样的句式,就是这种中庸激励下的自然产物。 这也解释了为什么 AI 写出来的东西,即便形式上模仿得再像,读起来仍像是“没有血肉”的文字。它没有世界模型,没有时间感,也没有“我非说不可”的冲动,它生成的只是“统计上最合理”的答案,而非“我真心想说”的表达。这种根源性的差异,就像是合成香料和炖煮骨汤的差别——味道可能接近,但总有一股“假”的底色。 所以,AI 味并不是一个可以靠技巧完全去除的瑕疵,而是统计学习范式的体味。你可以靠风格微调、个性化训练和精心设计的提示词让它淡一点,但只要它的底层逻辑还是“预测最可能的词”,这种味道就永远不会彻底消失。换句话说,它可以越来越像人,但永远不知道“成为人”是什么感觉。
一篇论文要上顶刊、顶会,需要经历三个阶段: 1)首先是产出 preprint 初稿,初稿完成后发布到 arXiv 或 openReview 等平台,主动获得快速曝光,以吸引潜在的审稿人注意; 2)紧接着是向对应的期刊或会议投稿,会经历初审、正式审核、问题澄清等过程,顶会的拒稿率在 80% 左右; 3)最后完成修订和补充后才会被正式收录,整个流程通常持续半年甚至一年以上。 顶刊顶会只占论文总量的不到 10%,却贡献了超过 50% 的引用量;剩下的 90% 虽然很多是增量性研究或局部实验,没有里程碑式的突破,但也为后续研究提供了大量数据、方法和对比基线,价值同样不可忽视。 那“论文”到底是什么?从顶会顶刊的分类来看,它本质上是人类知识的一种系统化表达形式。以计算机科学为例,NeurIPS 偏重机器学习和人工智能基础理论,CVPR 聚焦计算机视觉,ICML 和 ICLR 涵盖模型架构、训练方法、优化算法等方向,SIGGRAPH 专注图形学与交互,而 Nature、Science 等综合性期刊则跨越学科边界,关注具有颠覆性意义的研究成果。可以说,论文汇聚了人类在 算法、模型、系统、工具、应用 等不同维度上的思考与探索。 我比较推荐开发者去多关注一些前沿、偏工程性的 Agent 论文,它们里面往往埋藏着大量新颖的思路和独到的启发,这些思路本质上就是为了解决工业界里那些“又难又深”的问题而提出的。
看到一个可以将文章直接转换成 PPT 演讲的工具,Paper2Video,一篇文章+一个头像+一段语音样本,它就能帮你生成一个生动的演讲解说视频。对于偏专业和学术性的场景,这个工具几乎能承担起人工完成的工作,做学术汇报和做课程的朋友有福了😄 仔细阅读了源码和论文,它的实现方式颇为精妙,整个 PPT 的渲染,主要基于 Beamer 这个声明式布局框架: 1)首先让大模型对内容做一次通篇的解说,并做好摘要分段,确保能够把核心知识表达清晰; 2)对于每页 PPT 的布局,通过视觉模型判断是否存在溢出、错位、拥挤等情况,如果存在类似的问题,就会让布局模块生成多套拼接方案,对图片和文字进行缩放后进行不同组合,再由视觉模型从中挑选出最优的一张; 3)过程中还添加了一个虚拟鼠标,方便捕获观众的注意力,也让整个呈现更具动态感与交互感; 4)口型采用的是 Hallo2,这是一种支持长时长、高分辨率、音频驱动的人像动画模型,能够让头像与语音同步地做口型/表情动画。 这个工具主要解决的还是论文汇报场景,不过有几个思路值得借鉴,包括如何将文章内容做拆解、如何做好 PPT 排版,如何做好口型等。 稍微改改,应该也能适配到更大众化的领域,例如做自动培训视频、技术方案的交互式解说,甚至产品手册的可视化呈现,把 Paper2Video 升级成 Doc2Video。
维权没啥特别经验,我只知道一个原则,别事事只为自己,想一想问题的普遍性,去寻找更大的问题,同时为最大的问题找到责任方和监管方。 租车的商家想坑点钱,这没啥错,但不能狮子大开口,否则就会出现行业乱象,最恶劣的那波人都会冲入平台;难道平台不知道这类问题么,他们知道,但考虑到 ROI,他们会在“非关键”环节减少投入,例如租车价变更的审批、预扣款的审批等等,这些环节重要但也容易产生沟通纠纷。 这次糟糕的租车体验,一定有平台的疏于管控,有可能是缺少对商家的培训和教育,有可能是缺少对流程的优化,也可能是业务流程过于非标导致治理困难。因此投诉,首先要找到平台的问题。 那平台为什么会出问题?一个行业,只要发展成熟,就会出现对应的监管部门,例如快递,十多年前是没有针对快递的监管部门的,因为乱象太多,后来专门成立了这个部门。监管部门有责任和义务应对行业乱象,因此投诉,一旦受阻,应该即刻去找监管部门。 投诉的要点是什么?不是我被坑了多少钱,而是平台缺少哪些标准化的流程和监管机制,因此才出现问题,然后我才被坑,投诉的要点一定是朝着平台规范化治理去的。你试想一下,那些政府部门的人想拿到好的结果,是不是也得有几个真实 case 可以切入进去,才能做出改变。 当然,最终的鞭子肯定会抽到作恶的商家头上,如果只是要个人赔偿,那么让商家感受到平台客服、平台治理和政府监管的多重压力,同时让他们意识到自己在法律的边缘游走,这事儿基本就成了。但如果需要平台认错,让他们发生变化,还得靠朋友们一起花时间去斗争。
推荐学习下微软搞的这个 R&D-Agent 框架, ,它是一个让 AI 能够自己做科研的系统——能提出问题、设计实验、验证结果、总结规律,整套科研流程都能自动化执行。 微软还基于这套框架,构建了一个用于量化投资研究的智能体 R&D-Agent(Q),,并与开源量化平台 Qlib 结合,实现了自动化因子挖掘与策略优化。照这个趋势发展下去,未来的量化研究,恐怕真得交给 AI 来操盘了,😅 R&D-Agent 的整体架构分为两个阶段:研究阶段(Research Phase)和开发阶段(Development Phase)。研究阶段由四个部分组成:规划、探索路径结构、推理管线和记忆上下文,它们通过反馈机制持续循环,不断在假设、实验与分析之间往复,让系统在多轮探索中自动调整方向、积累知识、优化策略;开发阶段则承接研究成果,主要包括编码工作流与评估策略,前者把想法变成可执行代码,后者负责验证与对比结果,确保系统演化出的改进真实可靠。两个阶段形成首尾相接的闭环,让科研过程实现持续反馈与自我进化。 从本质上看,R&D-Agent 不是在“模拟科研”,而是在“系统化科研”。它让科学探索从线性的人力流程,转变为并行的智能网络。每一次假设的提出与验证,都会被记录下来,形成一份不断扩展的知识图谱,让科研活动变得可编排、可追踪、可积累。 相关论文:1)《R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science》, ;2)《Qlib: An AI-oriented Quantitative Investment Platform》,
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。