ginobefun
1个月前
ginobefun
1个月前
记录下这篇文章的阅读笔记,关于 MiniMax 和 Kimi 在大模型注意力机制上的不同技术路线选择。 1. MiniMax 选的:全注意力 (Full Attention) 这是一种蛮力但最扎实的办法。 它就像一个记忆力超群、但也最耗费精力的学生。当他读到小说第 500 页的某一个词时,为了彻底理解这个词,他会把这个词,和前面 499 页的每一个词,都重新对比一遍。 优点: 绝对的全面。他绝不会漏掉任何一丝线索,理解的质量是最高的。 缺点: 成本高到爆炸。文章越长,这种回头看的对比次数就呈指数级飙升。这会吃掉海量的内存和计算时间。 MiniMax 的选择是:我们先用这种最好的蛮力办法,一边等待未来的硬件变得足够便宜,来解决成本问题。 2. Kimi 选的:混合注意力 (Kimi Linear) 这是一种更聪明、更像人类的巧办法。 Kimi 知道蛮力在读长文时是行不通的。它就像一个更有效率的学霸,采用了 3:1 的混合阅读模式: 在 3/4 的时间用一种「线性接力」的方式阅读。 当它读到第 500 页的某个词时,它不会回头去看 499 页的全部内容,而是只看第 499 页最后传过来的那个摘要。它在摘要上补充新信息,再传给下一页。这就像我们正常读书,只需要记住一个不断更新的上下文概要。这非常快,而且极度节省内存。 在 1/4 的时间里处理纠错,它也怕阅读摘要传久了,会忘掉第 1 页的细节。 所以每隔 3 层接力后,它就停一下,用一种压缩过的「全局眼光」快速扫一眼全文的内容大纲,确保自己对整本书的理解没有跑偏。 核心差别 MiniMax 全注意力是用蛮力换质量。它赌的是未来硬件会进步,能撑得起这种巨大的消耗。 Kimi Linear 是用巧劲换效率。它用一种 3:1 的混合架构,在大部分时间跑得飞快,再用小部分时间回头看大局。 Kimi 的突破还在于,它证明了这套巧劲,现在就能用低 75% 的内存和快 6 倍的速度,达到甚至超过了蛮力办法的效果。
ginobefun
1个月前
刚看了 GitHub 发布的 2025 Octoverse 报告,总结下几个关键要点: 🚀 创纪录的增长和活动 2025 年的主题是「增长」。 开发者总数: GitHub 上的开发者总数已超过 1.8 亿。 新增用户: 过去一年新增了 3600 万开发者(平均每秒超过一位),这是有史以来最快的绝对增长率。 AI 驱动增长: GitHub Copilot 免费版的推出,极大地加速了开发者注册和存储库创建的增长曲线。 活动激增:每月平均合并 4320 万个 PR,同比增长 23%。全年代码 Push 近 10 亿次,同比增长 25.1%。 💻 编程语言格局的重大转变 报告强调了 AI 正在重塑开发者的工具选择。 TypeScript 登顶: 在 2025 年 8 月,TypeScript 首次超越 Python 和 JavaScript,成为 GitHub 上(按贡献者数量计算)使用最多的语言。 原因: 这反映了开发者向类型化语言的转变,这使得 AI 辅助编码在生产环境中更加可靠。此外,几乎所有主流前端框架现在都默认使用 TypeScript。 Python 依旧强劲: Python 仍然是 AI 和数据科学工作负载的主导语言,并且在 AI 相关项目中的使用率大幅增长。 🤖 生成式 AI 成为开发标配 AI 不再是实验性工具,而已成为标准开发流程的一部分。 快速采用: 80% 的新开发者在注册 GitHub 的第一周内就使用了 Copilot。 项目集成: 超过 110 万个公共存储库现在使用了大型语言模型SDK,同比增长 178%。 AI 智能体登场: 报告明确指出 "Agents are here"(智能体时代已来)。从 2025 年 5 月到 9 月,Copilot 编程智能体创建了超过 100 万个拉取请求。 开源中的 AI: 贡献者排名前 10 的开源项目中,有 6 个是 AI 相关的(例如 vllm, ollama, huggingface/transformers)。 🌏 开发者社区的全球化 开发者群体的增长是全球性的,尤其是在新兴市场。 印度的崛起: 印度今年新增了 520 万开发者(占所有新用户的 14%),成为新开发者的最大来源国。 未来预测: 报告预测,到 2030 年,印度将拥有 5750 万开发者,成为 GitHub 上最大的开发者社区。 全球贡献: 印度现在拥有世界上最大的公共和开源贡献者基础(按人数计算),尽管美国在贡献总量上仍然领先。 📖 开源生态:AI 主导与治理滞后 开源活动达到了创纪录的水平,但面临新的挑战。 AI 项目激增: AI 基础设施项目(如 vllm, ollama)在增长最快和贡献者最多的项目中占据主导地位。 治理跟不上速度: 尽管活动激增,但项目的治理文档(如贡献指南和行为准则)的采用率仍然很低。只有 5.5% 的项目有贡献者指南,2% 有行为准则。
ginobefun
1个月前
#BestBlogs 万字长文:重构软件工程迷思,搞懂需求与产品思维 | 腾讯云开发者 万字长文深入剖析软件工程中需求与产品思维的本质,厘清概念误区,并探讨了 ToC 与 ToB 产品方法论的差异。 摘要: 文章旨在重构软件工程理论体系,聚焦需求分析、建模与架构,特别是需求与产品思维。作者指出软件工程缺乏标准化表达导致共识难以建立,并提出技术人员需具备用户、模型、架构“三个脑袋”。文章深入定义“需求”为认知,是“人+场景”的结合,强调产品是针对用户需求的解决方案而非需求本身。它探讨了用户价值的理性与感性部分、比较性以及“伪需求”的本质。此外,文章详细对比了 ToC 与 ToB 产品方法论在价值、人性与行业知识上的核心差异,并总结了软件工程的古典学派与敏捷流派。最后,明确了需求分析的产出物和技术人员在需求阶段的角色定位。 主要内容: 1. 软件工程缺乏标准化表达导致共识难以建立 -- 文章指出软件工程各阶段产出物形式多样化,自然语言的二义性与认知差异使得产品、开发、测试等团队对需求的理解存在巨大偏差,影响协作效率。 2. “需求”本质是认知,产品是解决方案 -- 作者将需求定义为对现实世界的理解,是“人+场景”的组合,而产品是满足用户需求的“供给”或“解决方案”,区分二者有助于避免开发失焦。 3. 用户价值具有理性与感性两部分,且是比较性的 -- 用户价值不仅包含便宜、方便等理性因素,更涉及酷、爽、美等感性体验,并且总是通过与现有解决方案的对比来衡量,新产品需提供超越旧方案的新价值。 4. ToC 与 ToB 产品方法论存在根本性差异 -- ToC 产品更注重用户体验与人性洞察,而 ToB 产品则更强调商业价值与深厚的行业知识,这两种模式在思维链条和实践上各有侧重。 5. 技术人员在需求阶段的角色定位至关重要 -- 技术人员应积极参与需求讨论,挑战产品方案的合理性与技术可行性,弥补逻辑漏洞,甚至在偏技术的中台/平台型产品中担任技术产品经理,以确保产品质量和成功落地。 文章链接:
ginobefun
1个月前
#BestBlogs 什么是智能体? | ByteByteGo Newsletter 本文定义了 AI 智能体,并将其与传统程序区分。文章还根据复杂程度对智能体进行了分类。 摘要: 本文概述了 AI 智能体。AI 智能体是一种能够感知环境、做出决策并采取行动以实现特定目标的软件系统,具有一定的独立性。它与被动的、遵循指令的传统软件不同。核心操作机制“智能体循环”(感知、思考、行动、观察、重复)得到解释,强调了大型语言模型如何充当大脑,以及智能体如何利用各种工具(例如,网络搜索、API)来扩展其能力并适应动态情况。 本文还将 AI 智能体分为一个复杂程度的谱系:简单反射、基于模型、基于目标、基于效用和学习型智能体,并通过清晰的示例和图表对每种智能体进行了说明。最后,它强调了 AI 智能体对软件开发的变革性影响,即转向面向目标的任务完成,而不是明确的逐步指令。 主要内容: 1. AI 智能体通过其自主性、反应性、积极性和社交能力来实现目标,这使得它们与传统软件有根本的不同。 -- 与被动的传统软件不同,AI 智能体可以独立地感知、决策和行动,利用大型语言模型作为它们的“大脑”来理解上下文,并为复杂的、多步骤的任务确定最佳行动方案。 2. “智能体循环”(感知、思考、行动、观察、重复)是使 AI 智能体能够分解复杂任务并适应的连续循环。 -- 这种迭代过程使智能体能够动态地调整其策略,利用各种工具(例如,网络搜索、API),并通过观察结果和改进其方法以达到期望的结果来处理意外情况。 3. AI 智能体的复杂程度各不相同,从简单的反射智能体到随着时间推移而改进的先进学习型智能体。 -- 理解这些不同的类型——简单反射、基于模型、基于目标、基于效用和学习型智能体——有助于为各种任务选择最合适的智能体,从基本的条件-动作规则到复杂的、自我改进的系统。
ginobefun
1个月前
《智能体设计模式》第六章「规划模式」完成翻译,目前已翻译章节: 00 - 前言部分 01 - 第一章:提示链模式 02 - 第二章:路由模式 03 - 第三章:并行模式 04 - 第四章:反思模式 05 - 第五章:工具使用模式 06 - 第六章:规划模式 规划模式让智能体具备前瞻性思维能力,能够将复杂任务拆解为更小且可管理的步骤,并制定实现预期结果的策略。通过规划能力,智能体不再只是对眼前输入作出反应,而是能够自主规划从初始状态到目标状态的完整路径。这里为大家梳理几个关键要点: 1. 核心理念:从被动响应到主动规划 规划模式的核心在于建立「理解目标 → 制定计划 → 执行步骤 → 灵活调整」的智能流程,让智能体具备战略性、目标导向的执行能力。 - 传统模式的局限:基础智能体只能对眼前输入作出反应,缺乏处理复杂多步骤任务的能力,无法将高层次目标拆解为可执行的子任务。 - 规划模式的价值:智能体能够接收高层次目标并自主拆解为有序的执行步骤,在遇到阻碍时灵活调整路线,从而有效处理包含多个步骤和相互依赖的复杂任务。 2. 规划的关键特征 规划模式通过以下特征实现智能化的任务执行: - 目标驱动:接收高层次的目标声明(做什么)而非具体指令(如何做」,由智能体自主决定实现路径。 - 即时生成:计划不是预先存在的,而是根据当前状况和目标要求即时生成的。 - 灵活应变:初步计划只是出发点,智能体能够接纳新信息并在遇到阻碍时动态调整策略。 - 结构化分解:将复杂目标拆解为一系列更小、可执行的步骤或子目标,按逻辑顺序处理依赖关系。 3. 典型应用场景 规划模式在四大领域展现出核心价值: - 流程自动化:编排复杂工作流,如新员工入职流程,包括创建账户、分配培训、部门协调等有序子任务。 - 机器人与自主导航:进行状态空间遍历,生成从起始状态到目标状态的最优路径,同时遵守环境约束。 - 结构化信息整合:生成研究报告等复杂输出,规划包含信息收集、数据归纳、内容结构化、迭代打磨等阶段。 - 多步骤问题解决:制定并对系统化流程进行诊断、实施解决方案,并在必要时升级处理。 4. 实现框架与特点 - CrewAI:通过定义明确的智能体角色和任务,支持先规划后执行的工作流,适合结构化的多步骤任务。 - Google 深度研究:利用多步骤动态迭代流程,把用户提示拆解为研究计划,循环执行搜索与分析,生成带引用的结构化报告。 - OpenAI 深度研究接口:提供编程化控制能力,支持 MCP 协议连接私有知识库,展示完整的中间步骤(推理、搜索、代码执行)。 5. 使用时机与权衡 当任务复杂度超出单一操作范围时,应当使用规划模式,但需要权衡灵活性与可预测性: - 适用场景:任务需要多个相互依赖的步骤才能完成;「如何做」的方案需要探索而非已经明确;需要自动化处理复杂的工作流程;需要生成全面、综合的结果。 - 权衡考量:当问题的解决方法已经清楚且可重复时,固定流程比动态规划更有效;规划增加灵活性的同时也引入了不确定性;需要在自主性和可预测性之间找到平衡。 - 核心价值:将智能体从简单的被动响应者提升为战略性、目标导向的执行者,能够管理复杂流程并产出全面综合的结果。 点击项目链接 可双语对照阅读,跟踪最新翻译进展,也欢迎加入交流群一起阅读讨论、反馈问题或随个 Star ~
ginobefun
1个月前
刚集中看了下 DeepSeek-OCR 模型的论文和报导,发现这个模型名字虽然叫 OCR,但它真正目标其实是想解决当前模型在处理长文本时面临的算力噩梦。传统 AI 处理文本时,计算量会随文本长度平方级增长,成本极高。 DeepSeek 的思路是跳出这个困局,不再让 AI 逐字「阅读」一维文本,而是让它「观看」被渲染成二维图像的文本。这就是他们提出的「上下文光学压缩」范式,利用一图胜千言的原理,将海量文本压缩成极少量的视觉 Token。 模型的核心是编码器 DeepEncoder,它采用「先局部、再压缩、后全局」的三阶段设计:先用窗口注意力高效处理高分辨率图像的局部细节,再通过一个 16 倍卷积压缩器大幅减少 Token 数量,最后用全局注意力来理解这些被浓缩后的精华 Token。解码器则是一个 3B MoE 模型,负责从这些视觉 Token 中重建出原始文字,从而实现了一种全新的文本压缩范式。 这个方法的效率极为惊人。在 10 倍压缩率下,解码准确率高达 97%。在 OmniDocBench 基准上,它使用不到 800 个视觉 Token,就大幅超越了平均使用近 7000 个 Token 的 MinerU2.0,而一块 A100 显卡每天就能处理超过 20 万页数据。 因此,这不仅是一个 SOTA 级别的 OCR 工具,还被认为是「AI 的 JPEG 时刻」,为 AI 的输入和记忆架构打开了新路径。连 Karpathy 都表示,这也许证明了像素是比文本更好的输入方式,带来了更短的上下文窗口和更高的效率。
ginobefun
1个月前
本周 BestBlogs 精选内容已邮件推送,欢迎阅读 ----------------------------- 🚀 模型与研究亮点: ✨ Anthropic 发布了 Claude Haiku 4.5 ,该小模型以其接近顶尖的编码性能、显著的成本效益和更快的处理速度,重新定义了高智能 AI 的可及性与效率。 🎬 谷歌 DeepMind 推出 Veo 3.1 模型,通过增强真实感、提示遵循度和视听质量,并集成生成音频和高级编辑功能,革新了 AI 视频创作工具 Flow 。 📄 百度开源了自研多模态文档解析模型 PaddleOCR-VL ,其 0.9B 参数量在 OCR 四大核心能力上全面刷新 SOTA,打破了“大模型才有好效果”的迷思。 💡 阿里巴巴开源了 Logics-Parsing 模型,基于 Qwen2.5-VL 架构,利用布局为中心的强化学习,有效解决了复杂 PDF 文档的端到端结构化处理难题。 💻 大语言模型结构化输出成为构建可靠 AI 应用的核心,文章深入解析了模式引导生成、约束解码、SFT 及 JSON Mode 等六大关键技术路径。 🤔 深度分析当前大语言模型 LLM 的过度宣传与“p^n 困境”,强调 AI 缺乏真实智能,并提出构建人机协同系统的三大原则以应对其固有局限性。 🛠️ 开发与工具精粹: 🔗 LangChain 与 Manus 深度探讨 AI 智能体上下文工程,提出了上下文卸载、缩减、检索、隔离等策略,并通过 Manus 的“分层行动空间”优化工具调用。 📝 规约驱动开发 (SDD) 作为 AI 辅助编码的新范式被详细解析,其规约优先、规约锚定、规约即源的理念及 Kiro 、Spec-kit 、Tessl 等工具成为关注焦点。 ⚙️ 特斯拉前 AI 总监 Andrej Karpathy 开源了 nanochat 项目,以约 8000 行 Rust 代码和 100 美元的成本,从零开始构建了一个简易版 ChatGPT ,并提供了详细教程。 🧑‍🏫 吴恩达推出 Agentic AI 新课程,将智能体工作流开发沉淀为反思、工具、规划和协作四大设计模式,实战证明能让 GPT-3.5 在特定任务中超越 GPT-4 。 Go 腾讯发布 tRPC-Agent-Go 框架,旨在填补 Go 语言在自主多 Agent 协作框架领域的空白,集成了 LLM、智能规划、工具调用等能力。 🔄 《智能体设计模式》深度解析了 AI 智能体的反思模式,通过“生产者-评审者”架构实现自我评估和迭代改进,显著提升任务输出质量,并提供实战代码示例。 💡 产品与设计洞见: 🔧 Anthropic 推出 Claude 技能 功能,用户可将专业知识与指令打包成技能包,定制 Claude 的工作流程,实现可组合、可移植、高效且强大的 AI 任务执行。 🔍 谷歌搜索产品副总裁 Robby Stein 揭示了谷歌 AI 转型的内幕,强调 Gemini 、AI 概览和 AI 模式如何通过更自然的语言和多模态输入,扩展而非取代传统搜索。 🎨 Figma CEO Dylan Field 认为在 AI 时代,设计、工艺和毫不妥协的质量将成为初创企业新的竞争优势,强调产品开发中培养 品味 的重要性。 🏢 硅谷内部讨论会揭示,AI Agent 部署失败的 95%并非模型智能不足,而是上下文工程、安全性、记忆设计等支撑体系缺失,强调治理与信任及多模型推理。 🚀 Slack 首席产品官 Rob Seaman 提出在 AI 时代,传统路线图已失效,应围绕客户与业务结果规划,并通过精简团队快速原型设计,加速产品开发和创新。 📈 Lovable 增长负责人 Elena Verna 强调 AI 正在瓦解传统分发渠道,产品增长需从漏斗模型转向增长飞轮,构建数据护城河并利用产品作为营销渠道。 📰 资讯与报告前瞻: ⚡ Nathan Labenz 驳斥 AI 发展减速论,强调 AI 在推理能力、上下文扩展及作为“协同科学家”方面的持续进步,并预见多模态 AI 的关键作用。 🖥️ 英伟达发布个人 AI 超级计算机 DGX Spark ,将数据中心级 DGX 架构浓缩至桌面,售价 3999 美元起,旨在实现本地高效 AI 开发和推理,并支持 OpenAI API 服务。 🤝 美图公司吴欣鸿分享在 AI 时代下的组织进化心得,实践“反惯性工作流”,提出“AI 原生组织”模式,倡导“一个人即一支团队”理念,并普及 AI 编码。 💰 《State of AI Report 2025》指出 2025 年是 AI 业务追平炒作的“推理之年”,头部 AI 公司年化收入已达百亿美元,AI 编程、音视频生成等商业领域取得显著成功。 ✍️ 语言学家娜奥米·S·巴伦深刻剖析 AI 时代人类写作的核心价值与挑战,强调写作是思考与情感表达的独特方式,呼吁“增强而非自动化”并划清人机协作界限。 ⚖️ 北京大学论文揭示 AI 在加速知识产出的同时,可能加剧内容和思想同质化,产生“创造性伤痕”效应,警示 AI 带来的“资历偏向”重塑劳动力市场。 希望本周的精选文章推荐能帮助您快速了解 AI 领域的最新进展!期待与您下周再见!
ginobefun
1个月前
人生的幸福感常被描述为一条 U 形曲线,中年是那个无可回避的谷底。这不仅是外部压力累积的结果,其本质更是一场深刻的内部危机:我们曾经赖以生存的思维模式与行为习惯,在不知不觉中变得僵化,失去了年轻时的灵活与开放。我们感到力不从心、沮丧懈怠,正是因为内心世界变得封闭,失去了成长的活力。 中年最大的危险,不是打击和意外,而是我们默许自己混日子。曾国藩的人生经历则揭示了另一条道路:所有的低谷,都可以是新的爆发点。他所践行的「突围」,并非是向外冲杀,而是一场向内的自我对话与人生再造。这场突围包含四个关键步骤,层层递进,直至核心。 一、打开心态:从「我是对的」到「也许我错了」 这不仅是谦虚,而是主动打破过往经验的牢笼。人到中年,最容易被自己的成功经验所困,认为自己手握真理,把所有问题都归咎于他人。曾国藩也曾如此,他用固有的理学标准去衡量世界,结果处处碰壁,加深了对他人的成见和对自我的执着。 真正的突围,始于放下「我永远对」的执念,敢于承认自己赖以成功的旧地图,在新的人生阶段可能已经失灵。只有时刻提醒自己「也许我是错的」,保持一颗开放和有弹性的心,我们才能为自己封闭的内心重新打开一扇窗,让新的空气和阳光进来,为真正的反思和成长创造可能。 二、看到他人:从「以我为尊」到「和光同尘」 这不仅是学会欣赏,而是摧毁自我中心的幻觉。当曾国藩被迫远离官场,以局外人的身份审视过往时,他才发现自己曾经鄙视的同僚并非一无是处,许多矛盾的根源恰恰是自己的骄傲自负。 人到中年,必须完成一次视角的转换:从将世界看作是自己表演的舞台,转为将自己看作是复杂社会生态中的一员。当我们不再以自己为唯一的坐标,才能客观地看到他人的长处和自己的局限。主动「挫其锐,解其纷」,磨平自己的棱角,把自己融入集体,才能真正减少外界的阻力,获得更广阔的空间。 三、当下不乱:从「思前想后」到「未来不迎,过往不恋」 这不仅是专注,而是停止精神内耗的源头。我们的能量,常常在对过去的悔恨和对未来的焦虑中被白白消耗,这正是行动迟缓、效率低下的根源。我们总被想象中的困难吓倒,却忘了唯一能有所作为的,只有当下这一刻。 曾国藩在绝境中「当下不杂」的定力,正是将所有能量从时间的虚无两端,强行拉回到「现在」这个实点的功夫。这种能量管理比时间管理更重要。把宏大的目标简化为眼前具体的一步,然后完成它。这是斩断内耗、重获行动主导权的唯一途径。 四、积极自救:从「被动承受」到「主动破局」 这不仅是乐观,而是一种身份的切换。面对困境,人最容易陷入受害者的无力感中。曾国藩一生败仗无数,但他最强大的能力,就是无论局势多糟,总能第一时间从一个被动的承受者,转变为一个主动的破局者。 他思考的永远不是「我为什么这么不幸」,而是「在当前局面下,我还能做什么来反败为胜,哪怕只是减少损失?」 这个问题本身,就是拒绝听天由命、重夺主动权的宣言。在任何时候,都不要放弃自救的权利,因为这才是走出困境的第一步。 中年,是我们第一次清晰地感受到,我们无法靠过去的惯性跑赢时间。真正的突围,是放弃与时间对抗的幻想,转而寻求一种新的共存方式,和时间和解。我们不再执着于「更高、更快、更强」,而是开始追求一种更有火候的境界,更有质量的人生。