#开源模型

Tz
6天前
当神的铠甲太重,已经勒进肉里 —— "神"开始流血了 2025年11月6日,Sam Altman 发了一篇1200字的声明。 语气很诚恳。姿态很低。但你能感觉到,他在出汗。 同一周,北京的月之暗面团队发布了 Kimi K2。训练成本:460万美元。在 SWE-Bench Verified 这个专业代码生成测试上,它跑出了71.3%的成绩——超过了 GPT-5。 OpenAI 的 CFO 前一天刚说"可能需要政府融资支持"。第二天就改口。 这不是巧合。这是流血的声音。 //什么是"神"// 神不是某个人,是一套信念。 这套信念说:只有闭源、重资本、天价算力,才能训练出最强的模型。它的代言人是 OpenAI,是 Sam Altman,是那份横跨8年、总额1.4万亿美元的基础设施承诺清单。 1.4万亿是个什么概念? 相当于整个非洲大陆2023年的 GDP。相当于可以建造140个三峡大坝。相当于给全球每个人发200美元。 这笔钱,OpenAI 准备用来建数据中心、买芯片、铺光纤。他们说服了 Broadcom、Oracle、Microsoft、Nvidia。差点说服了政府。 但现在,DeepSeek 用560万美元训练出了 R1。 Kimi K2 用460万美元,跑通了1T参数的 MoE 架构。 这两个数字,一个是1.4万亿,一个是460万。 差了多少倍? 30万倍。 //为什么流血// 想象一下这个画面: OpenAI 每年烧掉数千亿美元,像一台巨型蒸汽机,轰隆作响,吞吐着电力和芯片。 而月之暗面的团队在北京的办公室里,用384个"专家"(这是 MoE 架构里的技术术语,可以理解为384个小型专业模型)、32B激活参数,在15.5万亿 token 的训练过程中实现了零损失尖峰。 什么叫零损失尖峰?简单说,就是训练过程全程稳定,不需要重启,不需要人工干预,不需要"救火"。 在 SWE-Bench 这样的专业代码生成任务上,Kimi K2 逼近了 GPT-5 的水平。在推理场景中,它打败了 Claude Opus 4 的部分能力。 更要命的是,这些模型开源。 任何人都可以下载权重,部署在自己的服务器上。跑100万 token 只需要0.15美元输入、2.5美元输出。OpenAI 的 API 定价?十倍以上。 Sam Altman 在声明里花了三段篇幅解释"我们不需要政府担保",又花了两段解释"我们的收入增长计划"。他说,OpenAI 今年年化收入约200亿美元,预计2030年要涨到数千亿。 这套叙事建立在一个假设上:闭源模型的性能壁垒能维持足够长的时间,让用户愿意为高昂的 API 付费。 但中国实验室正在粉碎这个假设。 如果 Kimi K2 用不到500万美元的单次训练成本,就能达到与 GPT-5 相近甚至部分超越的表现,那1.4万亿美元的基础设施蓝图到底在买什么? 是买保险吗? 是买垄断吗? 还是买一套已经过时的军备竞赛规则? //伤口在哪里// 伤口不在技术上。 OpenAI 依然有 GPT-5 Pro,依然有企业客户,依然有品牌优势。但伤口在"必要性"上。 举个例子。 OpenAI 会说,那20%的差距是关键——是在极端边缘案例下的稳定性,是企业级的安全保障,是能让 AI 做出科学突破的最后一跃。 但问题是,当 All-In 播客的主持人 Chamath Palihapitiya 公开说"我们已经将大量工作负载转移到 Kimi K2,因为它性能更好且便宜太多"时,这个20%的叙事就开始失效了。 因为大部分用户不需要那最后20%。 他们需要的是"足够好"+"便宜10倍"。 这就像你去买车。一辆车从0加速到100公里需要3.5秒,另一辆需要4.2秒。但前者要100万,后者只要10万。 大部分人会选哪个? DeepSeek 和 Kimi K2 证明了什么 它们证明了一件事:当你用正确的架构设计(MoE + MLA)、正确的优化器(MuonClip 替代 AdamW)、正确的数据 pipeline(智能体模拟场景),1T参数的模型可以在15.5万亿 token 的训练过程中全程稳定。 不需要重启。 不需要人工干预。 不需要"战略国家算力储备"。 这不是技术追赶。 这是路线证伪。 就像当年苹果证明了"智能手机不需要键盘",特斯拉证明了"电动车不需要妥协性能",SpaceX 证明了"火箭可以回收"。 现在,DeepSeek 和 Kimi K2 证明了: 训练顶级 AI 模型,不需要1.4万亿美元。 //之后会发生什么// 神不会死。 OpenAI 还有现金流,还有 ChatGPT 的用户基数,还有企业版订阅。但神会缩小。 1.4万亿美元的承诺会被重新谈判。部分数据中心项目会推迟或取消。投资人会开始问"为什么不用开源模型做底座"。 政府会发现,建设"国家 AI 基础设施"其实可以部署 Kimi K2,而不是向 OpenAI 购买算力配额。 更重要的是,开发者会用脚投票。 当 Hugging Face 上 Kimi K2 的下载量接近10万、GitHub 星标5.6K、Perplexity 的 CEO 公开说要基于 Kimi K2 做后训练时,这场游戏的规则已经变了。 Sam Altman 说"我们相信市场会处理失败"。 但他没说的是:市场正在处理的,不是某家公司的失败,而是某种路径的失败。 那种认为"只有砸更多钱才能做出更好模型"的路径。 那种认为"闭源才能保持领先"的路径。 那种认为"政府应该为私营数据中心提供低成本资本"的路径。 神会继续存在。 但祂的铠甲会被卸下一些。那些用1.4万亿美元堆起来的、刻着"AGI 需要无限算力"的护板,会被一片片敲掉。 留下的可能是一个更轻盈的 OpenAI——依然强大,但不再垄断叙事。 或者,留下的只是一个教训: 当你把赌注压到"我们是唯一能做到这件事的人"上时,最危险的对手不是那些追赶你的人,而是那些证明"其实不需要这么多钱"的人。 Kimi K2 的团队没有试图打败 OpenAI。 他们只是在北京的办公室里,用460万美元,证明了一件事: 有些伤口,不是被对手砍出来的。 是自己的铠甲太重,开始勒进肉里。
[论文解读] DeepAnalyze: Agentic LLM 助力自主数据科学 来自中国人民大学和清华大学团队的论文,提出 DeepAnalyze-8B 模型,基于 Agentic LLM 实现从原始数据到深度报告的自主数据科学,突破传统固定流程的局限。 核心贡献 · DeepAnalyze-8B:80亿参数开源模型,自主协调规划、数据理解、代码生成等任务,通过提示或微调支持数据问答、建模及开放研究。 · 课程式训练:从单一技能(推理、代码)到综合能力,结合强化学习解决反馈稀疏问题。 · 轨迹生成框架:通过多智能体交互和关键词引导,从数据集生成50万条高质量训练样本(DataScience-Instruct-500K,已开源)。 · 实现从数据清洗到报告生成的端到端流程。 方法概述 基于 DeepSeek-R1-0528- Qwen3-8B,模型通过五类行动标记(如⟨Analyze⟩规划、⟨Code⟩代码生成)循环优化输出。训练分两阶段: 1. 单一技能微调:监督学习提升推理、数据理解、代码能力,关键词优化增强表格处理。 2. 多技能训练:交互轨迹微调后,用.GRPO 强化学习,结合规则、准确性和 LLM 评分优化。 训练在 NVIDIA A800 GPU 上完成,支持 32K tokens 序列,轨迹从 Spider/BIRD 等数据集生成并过滤。 主要成果 在12个基准测试中,DeepAnalyze-8B 表现优异: · 完整流程(DataSciBench):成功率59.91%,完成率66.24%,接近GPT-4o(66.31%),数据准备(71.68%)和可视化(69.09%)领先。 · 分析/建模(DSBench):准确率30.04%,成功率90.63%,超GPT-4o智能体。 · 多步推理(DABStep):准确率38.88%,远超ReAct+GPT-4o(15.77%)。 · 深度研究(DABStep-Research):内容得分3.81/5,格式4.39/5,优于GPT-4o(3.05/5),案例中识别18-27%费用优化和35-42%欺诈降低潜力。 · 代码/表格问答:代码生成61.7%(超GPT-4-turbo 53.9%),表格问答64.47%(SOTA)。 消融实验显示课程训练提升23.54%,轨迹优化增4.57%。模型、代码、数据集已开源。 论文地址:
[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM,参数规模 3B,核心目标是从 LLM 的视角探索视觉编码器的作用,并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”,目的是高效处理图像中的文本提取和文档结构化任务,适用于 OCR 和文档数字化场景。 关键创新与架构 DeepSeek-OCR 的设计强调 LLM 中心化的视觉处理创新: · 视觉-文本压缩机制:通过动态分辨率处理(如 Gundam 模式,将图像裁剪为多个 640×640 块加一个 1024×1024 中心块),将视觉输入压缩为少量 token(例如 Base 模式下 256 个视觉 token),减少计算开销的同时保留高保真度。这不同于传统 VLM 的固定分辨率编码,更注重与 LLM 的无缝融合。 · 多模态提示支持:引入 grounding 提示(如“<|grounding|>”),允许模型针对性执行任务,如“Convert the document to markdown”用于结构化输出,或“Free OCR”用于纯文本提取。 · 训练策略:模型借鉴了 Vary 和 GOT-OCR2.0 等开源项目,聚焦于文档、图表和弱视觉信号的处理,支持 32 种语言的 OCR(包括中文和英文)。 这些创新使 DeepSeek-OCR 在处理复杂布局(如表格、图表)时表现出色,避免了传统 OCR 工具(如 Tesseract)的刚性限制。 性能表现 在基准测试中,DeepSeek-OCR 展现出高效性和准确性: · OCR 准确率:在 OCRBench 等数据集上,超越部分开源 VLM(如 Qwen-VL),尤其在手写体和低质量图像上表现稳健。 · 推理速度:使用 vLLM 引擎,在 A100-40G GPU 上处理 PDF 可达约 2500 token/s,支持并发批量评估。 · 分辨率适应:支持 Tiny(512×512)到 Large(1280×1280)模式,平衡精度与效率;在 OmniDocBench 等文档基准中,文档到 Markdown 转换的 F1 分数高于基线模型 5-10%。 它在资源受限环境下(如单 GPU)实现 SOTA(最先进)性能,但对极高分辨率图像的泛化仍需优化。 使用与应用 部署简单,支持 Hugging Face Transformers 和 vLLM: · 环境准备:Python 3.12+、CUDA 11.8、Torch 2.6.0,安装 flash-attn 和 vLLM。 · 应用场景:文档数字化(如 PDF 转 Markdown)、发票提取、学术论文图表解析。仓库提供可视化示例,展示从杂乱图像到结构化输出的效果。 开源模型