OpenAI 悄然隐藏CoT推理过程，逐渐走向完全黑箱化。想从 OpenAI 蒸馏 Agentic Reasoning 过程，变的非常困难。另一方面，近期的几篇 LLM RL 的论文的可靠性受到质疑，让使用开源的 Qwen 模型的工作变得似乎意义虚无化。另外，刷榜benchmarking的开源模型，又有多少存在 data contamination 的问题？闭源的不让蒸馏，开源的又不

#OpenAI黑箱化 #Agentic Reasoning #LLM RL质疑 #Qwen模型 #开源模型 #data contamination #刷榜benchmarking

相关新闻

Xiaowen

6天前

Qwen3.5 系列确实厉害。手机上能跑的 Qwen 3.5 2B 版本，已经可以流畅合理的进行很多有内容的复杂对话了，其他任何一个国外开源的 2-4b 版本，几乎完全是智障。

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3个月前

#这个AGI冬天有点冷我的直觉，deepmind把GenAI在数字内容或者数字世界里推到一个新高度； Anthropic仍旧在LLM原生符号智能的路上探索… 产业价值和实体经济效应要看DeepSeek在纯符号智能如math和低成本长上下文的开源模型！

Gorden Sun

3个月前

RynnVLA-002：整合的视觉-语言-行动和世界模型阿里达摩院开源的模型，整合了VLA的世界模型。世界模型用于生成场景图片，VLA模型用于生成动作，同时也支撑世界模型生成图片。除了用于可交互的世界场景外，更适用于机器人任务。在评测数据集的表现上，接近闭源模型。模型：

4个月前

当神的铠甲太重，已经勒进肉里 —— "神"开始流血了 2025年11月6日，Sam Altman 发了一篇1200字的声明。语气很诚恳。姿态很低。但你能感觉到，他在出汗。同一周，北京的月之暗面团队发布了 Kimi K2。训练成本：460万美元。在 SWE-Bench Verified 这个专业代码生成测试上，它跑出了71.3%的成绩——超过了 GPT-5。 OpenAI 的 CFO 前

Kai

4个月前

kimi k2 thinking 效果真的很棒，重点不在于现在有没有全面超过 gpt/claude 重点在于 “神”开始流血了，很多大饼和泡沫是建立在闭源模型的领先上，但如果有个开源的替代品能贴近甚至超过闭源模型，很多事情应该会发生变化

关联事件

#AI乱象不止：内容注水，隐私堪忧

206

中央网信办整治AI乱象，已处置违规AI产品3500余款，但AI低质内容泛滥、隐私泄露、造谣等问题依旧突出，用户信任持续降低。AI批量生产低质内容，使KOL大量涌现，劣质AI项目包装横行。微信AI新功能被指存在隐私泄露风险，总结内容错误频发。AI造假现象蔓延至国际领域，上合国家青年用镜头回应质疑。新华每日电讯发文警惕AI造谣抹黑营商环境。AI图像真假难辨，加剧国际冲突舆论风险。AI技术滥用引发的信任危机持续深化。