马东锡 NLP 🇸🇪2025-05-30 04:20:48OpenAI 悄然隐藏CoT推理过程,逐渐走向完全黑箱化。想从 OpenAI 蒸馏 Agentic Reasoning 过程,变的非常困难。 另一方面,近期的几篇 LLM RL 的论文的可靠性受到质疑, 让使用开源的 Qwen 模型的工作变得似乎意义虚无化。 另外,刷榜benchmarking的开源模型,又有多少存在 data contamination 的问题? 闭源的不让蒸馏,开源的又不
karminski-牙医2025-05-30 03:04:53给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-
宝玉2025-05-27 11:47:31来自 Reddit 一位拥有30多年经验的前FAANG(Facebook、Apple、Amazon、Netflix、Google)高级工程师被一个C++ Bug困扰了4年,花了约200小时却毫无进展。而Claude Opus 4竟然成功地解决了这个问题,并且是唯一能做到的AI智能体。 以下是 Reddit 上的帖子: *** Claude Opus 今天帮我解决了折磨我四年的「白鲸」级Bug
howie.serious2025-05-26 09:02:50不论你今天状态是 100% 还是 5%,雷打不动,横竖发一篇文章,这就是 discipline 🤣 (以日更实验为例。其他同理。 我家小学生,不管刮风下雨,横竖每天自己做两道 c ➕➕题目)