#数学能力话题下的最新新闻、事件- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

2个月前

Gemini 3 Pro 已经可以在 AIStudio 使用了，模型卡也泄漏了，各方面都很强，除了软件工程基准（SWE Bench）方面略低于 Sonnet 4.5 和 GPT-5.1 直接转译下下面 Deepy 的总结： --- 谷歌最新一代AI大模型Gemini 3的性能数据，居然在官方发布前数小时提前泄露！从泄露的数据看，这款模型简直强大到离谱，让人忍不住想深入挖掘一下，它的发布究竟意味着什么？ 1. 成本不再是障碍：普通人也能用得起的强大AI 谷歌这次从零开始，在自家的TPU芯片上训练了Gemini 3模型。它采用了专家混合网络（Mixture of Experts，简称MoE）架构，可以处理超长输入（高达100万token）和输出（64k token），而MoE设计的精妙之处就在于：即便性能爆炸提升，成本也并不会疯涨。也就是说，普通用户未来用上这么强大的AI，花费也不会太高！ 2. 电脑操作能力大跃升：真正实现自动化的知识工作 Gemini 3在一项鲜为人知却非常实用的测试ScreenSpot Pro中表现惊艳。这个测试考验AI理解各种软件截图的能力，包括AutoCAD、PhotoShop等专业工具界面。结果Gemini 3以73%的得分一举超过之前最好的模型足足两倍，遥遥领先！这意味着Gemini 3真正能够在复杂的工作场景下，帮助人们高效自动化完成专业的知识型工作。 3. 数学能力“一骑绝尘”：其他模型望尘莫及 Gemini 3这次特别经过大量数学定理证明的强化学习，数学能力超凡。在美国数学邀请赛（AIME）中几乎达到了“完美表现”，而在难度超高的**MathArena**数学基准测试中也达到了惊人的23%（其他主流模型几乎都只有1%左右）。此外，它在体现真正“通用推理能力”的ARC AGI 2测试中，也创造了30%的领先记录，这显示Gemini 3不仅在数学上是顶尖的，通用推理能力也同样拔群。 4. 编程能力惊人，但还有成长空间 Gemini 3在编程测试中展现了惊人的实力，比如在LiveCodeBench的国际象棋等级分（Elo）评分超过了2400，非常优秀。但也有一点小插曲：它在软件工程基准（SWE Bench）中并未拿下第一，反而输给了竞争对手。但在“工具调用”和“终端使用”等测试上，它依然稳居第一。这说明Gemini 3在互动编程、实时问题解决方面非常强悍，但在复杂、长期的代码维护方面，还有提升的空间。 --- 谷歌这次几乎动用了所有的“压箱底绝招”：完善的训练方法、大量私有数据、全新的模型架构，然后在几乎所有重要的基准测试中都实现了碾压式领先。这次升级，明确告诉我们：AI领域的发展速度不仅没有放缓，甚至还在加速向前。目前来看，谷歌在大模型领域已经形成了相当明显的领先优势。为什么这么说？ - 成本优势：谷歌拥有自家芯片TPU，训练成本明显更低； - 数据优势：谷歌掌握远超其他公司的海量专有数据； - 资金优势：拥有雄厚财力投入更多训练和数据资源； - 人才优势：谷歌的人才储备也丝毫不输其他顶级公司。这种全面碾压的格局，接下来6个月恐怕都难以撼动。谷歌已经用Gemini 3向全世界展示了自己在AI领域的绝对主导地位，而其他公司能否追上，现在还是一个未知数。无论如何，Gemini 3的发布注定将再次掀起一场AI界的大地震！

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 3 #AI大模型 #性能泄露 #数学能力 #自动化

勃勃OC

3个月前

不懂实数稠密性，不懂连续函数的中值定理，不懂微积分，不懂测地线方程，不懂黎曼测度非欧几何性质的文科生们请你们真的不要炒股，更不要炒币了倒不是说这些数学概念有什么用你说的没错，确实没有用但这种严谨的培训、概念的抽象能力和科学思维将决定你在多大程度上正确理解市场又会被市场多么无情的玩弄谢谢大家

币圈“1011”六倍崩盘：高杠杆爆仓潮，谁在裸泳？· 6476 条信息

#文科生炒股 #数学能力 #市场理解 #投资风险 #非理性投资

艾森 Essen

8个月前

法国一项最新研究揭示，女孩在数学学习上落后的现象，可能比我们想象的更早出现。研究追踪了260万名儿童的数学表现，发现入学之初，男女生的数学能力差异并不明显。但仅仅四个月后，差距开始显现，一年后，顶尖的5%学生中，男生数量是女生的两倍。这种趋势在公立和私立学校都存在，且在2018至2021年间保持稳定。研究表明，这种差距并非源于能力差异，而是与焦虑有关。在有时间压力和竞争性的数学教学与测试环境下，女生往往表现不佳。可能是因为从小就被灌输了对数学的恐惧。此外，社会上普遍存在的“男生天生更擅长数学”的刻板印象，也会影响教师和女生自身的信心，从而加剧这一问题。尤其是在高收入家庭，家长可能更多地参与孩子的学习，也更容易将这些观点传递给孩子。

#法国研究 #性别差异 #数学教育 #焦虑影响 #数学能力

大喵(8年前端讲师，能教你学会编程)

8个月前

下回再遇到有人说，数学不好就理解不了加密算法/人工智能/机器学习，你就问他，你自己理解不，你认识有人理解不，会写不，写过不。一问一个不吱声。所以学编程跟数学有什么关系？

#数学能力 #编程 #加密算法 #人工智能 #机器学习

karminski-牙医

8个月前

给大家解析一下 DeepSeek-R1-0528 的官方放出的评测数据。目前 DeepSeek-R1-0528 毫无疑问是开源模型第一了, Qwen3-235B-A22B 在热座上仅座了一个月[苦涩]. 先看图1，我们可以看到编程能力和数学能力都有巨大的提升，基本都是10%左右的提升。这是一个相当猛的结果。而大家这两天放出的测试也能看到这个新版本R1直逼 OpenAI-o3 或者 Gemini-2.5-Pro 的水平. (注意我把 CodeForces 测试分数等比缩小了100x，要不然坐标轴放不下了. 不影响展示提升比例) 具体来讲, Aider-Polyglot 测试从 53 提升到了 71 分, 这个分数比 claude-opus-4 都要高, 仅次于 Gemini-2.5-Pro, claude-opus-4-thinking, o4-mini-high 这三个都是72分。数学能力的 AIME24'25 测试均提升了10分+, 这里猜测会不会之前放出的 DeepSeek-Prover-V2 会不会也能在训练中起到不小作用然后看通用能力, MMLU 提升有限, MMLU 是个什么测试呢? 它是个涵盖了多个学科的问答选择题, 问题类似——锅包肉用什么肉? A. 猪肉, B. 羊肉, C.牛肉, D. 鸡肉 (当然实际问题是专业性问题, 比我这个难很多). 目前基础版本的 MMLU 早就被刷爆了(接近满分), 而这次两个 MMLU 的修改版测试没有什么提升, 但这并不是模型训练出现了问题, 而是也快到这两个测试的天花板了, 导致没什么区分度. 这里的区分度可以理解为十以内加减法没有办法作为高考数学题. GPQA 也类似, 但现在也有要被刷爆的趋势了. SimpleQA (这个是OpenAI的测试集) 和 Humanity's Last Exam 这两个目前还没被刷爆, 当然这两个也特别难, 我截图了 Humanity's Last Exam 的例题 (图2) 大家可以看看, 作为一个人类, 我非常有自信这个测试的 2500 道题目全都打 0 分哈哈哈哈. 最后说下总结, 我之前是略对 DeepSeek 这么久没更新有点焦虑的, 但现在来看完全没必要, 甚至只是更新了 R1 就能达到这种水平, 都不用把 R2 掏出来. 这就让大家对 R2 期待更高. 我是真心希望 R2 能有些多模态能力的. 另外题外话, 未来大模型的测试会充满困难, 甚至做出一套完善的测试题目的速度都没大模型发布得快, 现在的头部训练水平会导致新的测试和语料放出后不过几个月就会淘汰. 在我们达到 transformer 模型的理论极限之前, 想要实现AGI, 训练语料的瓶颈可能会更快达到. 所以 R2 的突破会不会是强化学习模式上的新突破, 它的自主学习会更强, 人类的监督只能用来保证模型安全. 否则人类干预完全就是训练的负因素. 让我们拭目以待. #deepseek

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-R1-0528 #开源模型 #Qwen3-235B-A22B #编程能力 #数学能力 #OpenAI-o3 #Gemini

只配抬杠

10个月前

——统计数据表明，在高收入国家，无法“在审查和评估陈述的有效性时运用数学推理”的成年人比例，已上升到平均25%，在美国更是达到了35%。

#高收入国家 #数学能力 #成人教育 #数据分析 #美国