#数学能力

毛泽东青年时代的学习是非常偏科的,学得最好的功课是作文,其它功课如英文、数学,似乎都不行。英文不行也就罢了,反正在革命时期打交道的都是中国人,掌权后接见外宾又都是有翻译的。可是数学不行可真不行,领导这么大的一个国家,数学不行是会误事的。而且他的数学还不是一般的不行,而是实在太不 行,所以日后掌权就误国误民了。 简单的数学,他当然是会算的。尤其是“翻番”。一万翻一番就是两万了;两万再翻一番就是四万了,四万再翻一番就是八万,这就叫“几何级数”了。毛泽东的脾气喜欢“好大喜功”,“好无产阶级之大,喜无产阶级之功”。“欲速则不达”的道理,他始终搞不懂,他的“多快好省”总路线就是“既要马儿跑得快,又要马儿不吃草”。反映在数学上就喜欢几何级数,蹦得快,不喜欢算术级数了。 1957年的钢产量只有535万吨,1958年毛泽东一咬牙、一跺脚,说干脆翻番算了。1958年搞得鸡飞狗跳、神鬼皆惊的1070万吨的钢产量指标就是这样定下来的。 1958年9月5-8日第十五次最高国务会议是在大跃进的最高潮中召开的,毛在这次会上的兴头正达到最高峰,一共做了四次讲话,每次讲话都算账,算得非常快与非常愉快。 毛说:“今年(粮食)大概可以差不多增产一倍,即有可能从去年的三千七百亿斤,增到七千几百亿斤。棉花,去年是三千三百万担,今年大概有七千万担,可以超过一倍。烟叶可以超过三、四倍。只有油料只超过半倍,还是不足的。麻类作物,过去没有注意,没有抓紧。钢铁可能翻一番。” “今年如果搞到七千多亿斤粮食,明年如果又翻一番,就是一万五千亿斤。” “今年一千一百万吨钢,明年二千五百万吨钢,苦战三年,后年五千万吨钢,粮食由三千七百亿斤到一万五千亿斤。” 全都掐在“翻番”的腰眼上,全都算的是“几何级数”的账。 “十五年赶上英国,我们是两年基本上赶上。”这又突破几何级数了。 毛感慨地说:“世界上的事情有这么怪,不搞就不搞,一搞就很多,要么就没有,要么就很多。你们不信这一条?比如我们打二十二年的仗,二十一年就是不胜利,而在二十二年这一年,就是一九四九年,就全国胜利了,叫突变。” 翻番,翻番,再翻番!在大跃进的日子里,他“翻番”的如意算盘算得开心得了也不得,结果算出了一个“大饥荒”。 ---毛泽东的数学实在太不行 作者: 胡鹏池
宝玉
4个月前
Gemini 3 Pro 已经可以在 AIStudio 使用了,模型卡也泄漏了,各方面都很强,除了软件工程基准(SWE Bench)方面略低于 Sonnet 4.5 和 GPT-5.1 ​​​ 直接转译下下面 Deepy 的总结: --- 谷歌最新一代AI大模型Gemini 3的性能数据,居然在官方发布前数小时提前泄露!从泄露的数据看,这款模型简直强大到离谱,让人忍不住想深入挖掘一下,它的发布究竟意味着什么? 1. 成本不再是障碍:普通人也能用得起的强大AI 谷歌这次从零开始,在自家的TPU芯片上训练了Gemini 3模型。它采用了专家混合网络(Mixture of Experts,简称MoE)架构,可以处理超长输入(高达100万token)和输出(64k token),而MoE设计的精妙之处就在于:即便性能爆炸提升,成本也并不会疯涨。也就是说,普通用户未来用上这么强大的AI,花费也不会太高! 2. 电脑操作能力大跃升:真正实现自动化的知识工作 Gemini 3在一项鲜为人知却非常实用的测试ScreenSpot Pro中表现惊艳。这个测试考验AI理解各种软件截图的能力,包括AutoCAD、PhotoShop等专业工具界面。结果Gemini 3以73%的得分一举超过之前最好的模型足足两倍,遥遥领先!这意味着Gemini 3真正能够在复杂的工作场景下,帮助人们高效自动化完成专业的知识型工作。 3. 数学能力“一骑绝尘”:其他模型望尘莫及 Gemini 3这次特别经过大量数学定理证明的强化学习,数学能力超凡。在美国数学邀请赛(AIME)中几乎达到了“完美表现”,而在难度超高的**MathArena**数学基准测试中也达到了惊人的23%(其他主流模型几乎都只有1%左右)。此外,它在体现真正“通用推理能力”的ARC AGI 2测试中,也创造了30%的领先记录,这显示Gemini 3不仅在数学上是顶尖的,通用推理能力也同样拔群。 4. 编程能力惊人,但还有成长空间 Gemini 3在编程测试中展现了惊人的实力,比如在LiveCodeBench的国际象棋等级分(Elo)评分超过了2400,非常优秀。但也有一点小插曲:它在软件工程基准(SWE Bench)中并未拿下第一,反而输给了竞争对手。但在“工具调用”和“终端使用”等测试上,它依然稳居第一。这说明Gemini 3在互动编程、实时问题解决方面非常强悍,但在复杂、长期的代码维护方面,还有提升的空间。 --- 谷歌这次几乎动用了所有的“压箱底绝招”:完善的训练方法、大量私有数据、全新的模型架构,然后在几乎所有重要的基准测试中都实现了碾压式领先。这次升级,明确告诉我们:AI领域的发展速度不仅没有放缓,甚至还在加速向前。 目前来看,谷歌在大模型领域已经形成了相当明显的领先优势。为什么这么说? - 成本优势:谷歌拥有自家芯片TPU,训练成本明显更低; - 数据优势:谷歌掌握远超其他公司的海量专有数据; - 资金优势:拥有雄厚财力投入更多训练和数据资源; - 人才优势:谷歌的人才储备也丝毫不输其他顶级公司。 这种全面碾压的格局,接下来6个月恐怕都难以撼动。谷歌已经用Gemini 3向全世界展示了自己在AI领域的绝对主导地位,而其他公司能否追上,现在还是一个未知数。 无论如何,Gemini 3的发布注定将再次掀起一场AI界的大地震!
给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1,我们可以看到编程能力和数学能力都有巨大的提升,基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x,要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。 数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用 然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek