#AI大模型

宝玉
1个月前
Gemini 3 Pro 已经可以在 AIStudio 使用了,模型卡也泄漏了,各方面都很强,除了软件工程基准(SWE Bench)方面略低于 Sonnet 4.5 和 GPT-5.1 ​​​ 直接转译下下面 Deepy 的总结: --- 谷歌最新一代AI大模型Gemini 3的性能数据,居然在官方发布前数小时提前泄露!从泄露的数据看,这款模型简直强大到离谱,让人忍不住想深入挖掘一下,它的发布究竟意味着什么? 1. 成本不再是障碍:普通人也能用得起的强大AI 谷歌这次从零开始,在自家的TPU芯片上训练了Gemini 3模型。它采用了专家混合网络(Mixture of Experts,简称MoE)架构,可以处理超长输入(高达100万token)和输出(64k token),而MoE设计的精妙之处就在于:即便性能爆炸提升,成本也并不会疯涨。也就是说,普通用户未来用上这么强大的AI,花费也不会太高! 2. 电脑操作能力大跃升:真正实现自动化的知识工作 Gemini 3在一项鲜为人知却非常实用的测试ScreenSpot Pro中表现惊艳。这个测试考验AI理解各种软件截图的能力,包括AutoCAD、PhotoShop等专业工具界面。结果Gemini 3以73%的得分一举超过之前最好的模型足足两倍,遥遥领先!这意味着Gemini 3真正能够在复杂的工作场景下,帮助人们高效自动化完成专业的知识型工作。 3. 数学能力“一骑绝尘”:其他模型望尘莫及 Gemini 3这次特别经过大量数学定理证明的强化学习,数学能力超凡。在美国数学邀请赛(AIME)中几乎达到了“完美表现”,而在难度超高的**MathArena**数学基准测试中也达到了惊人的23%(其他主流模型几乎都只有1%左右)。此外,它在体现真正“通用推理能力”的ARC AGI 2测试中,也创造了30%的领先记录,这显示Gemini 3不仅在数学上是顶尖的,通用推理能力也同样拔群。 4. 编程能力惊人,但还有成长空间 Gemini 3在编程测试中展现了惊人的实力,比如在LiveCodeBench的国际象棋等级分(Elo)评分超过了2400,非常优秀。但也有一点小插曲:它在软件工程基准(SWE Bench)中并未拿下第一,反而输给了竞争对手。但在“工具调用”和“终端使用”等测试上,它依然稳居第一。这说明Gemini 3在互动编程、实时问题解决方面非常强悍,但在复杂、长期的代码维护方面,还有提升的空间。 --- 谷歌这次几乎动用了所有的“压箱底绝招”:完善的训练方法、大量私有数据、全新的模型架构,然后在几乎所有重要的基准测试中都实现了碾压式领先。这次升级,明确告诉我们:AI领域的发展速度不仅没有放缓,甚至还在加速向前。 目前来看,谷歌在大模型领域已经形成了相当明显的领先优势。为什么这么说? - 成本优势:谷歌拥有自家芯片TPU,训练成本明显更低; - 数据优势:谷歌掌握远超其他公司的海量专有数据; - 资金优势:拥有雄厚财力投入更多训练和数据资源; - 人才优势:谷歌的人才储备也丝毫不输其他顶级公司。 这种全面碾压的格局,接下来6个月恐怕都难以撼动。谷歌已经用Gemini 3向全世界展示了自己在AI领域的绝对主导地位,而其他公司能否追上,现在还是一个未知数。 无论如何,Gemini 3的发布注定将再次掀起一场AI界的大地震!
sitin
2个月前
比特傻
2个月前
《AI大模型之上的Allora》 老粉丝都知道,傻哥是大模型重度用户。 日常工作中,一会儿GPT、Grok,一会儿Gemini、Claude。 傻哥不得不在各种大模型之间相互切换。 于是,傻哥就在想,这些大模型之上会不会出现一层抽象层, 能够全自动根据特定任务来调用不同的模型呢? 直到今天,傻哥看到了Allora。 先说下Allora的背景 团队来自摩根大通、UC Berkeley、剑桥 融资额35m美金 资方Polychain、Framework、dao5 等机构。 整体而言,是具备严肃背景的资方+强大团队组合。 那Allora的AI 抽象层有啥特点呢? 1、从“模型中心”到“目标中心” 你只描述目标(如“预测 BTC 明日收益率、给出胜率与置信区间”),网络自动择优与加权(模型/权重/路由随情境实时变化)。这比单一模型或静态集成更能适应任务。 2、去中心化的“群体智能”与自进化 超过 28 万个 Workers(模型/代理)在同一网络里竞争 + 协作:优者得更高权重与奖励,劣者被降权或淘汰;Reputers(评估者)通过质押参与评估与治理 3、“即插即用”的智能信号 面向 DeFi、预测市场、AI Agents 提供直接可用的信号(胜率、风险分布、动作建议等),缩短从研究到交易/执行的距离; 比如今日火热的预测市场, Allora能够汇集多个模型,把“预测”做成一条可计价、可清算的生产线 在提交、聚合、使用、结算、权重再分配循环中,使得预测市场可以自住进化。 凭借此,Allora精准预判了2024美国总统大选结果。 Allora代表了AI和Crypto往后发展的三大趋势: 1、AI 从“单体模型竞争”走向“群体智能协作” 未来更像“推理市场”:不同专长模型以价格/奖励为信号协作——谁在当前情境更准,谁拿流量与收益。Allora 把这套机制做成“网络层”,而非单一应用内的小工具。 2、Agent 经济 × 金融可清算化 AI Agents 不再只“生成文本”,而是基于可交易的智能信号进行下单、对冲、再学习;智能→现金流的链路被打通。DeFi 与预测市场因此从“人类投机”升级为“群体智能驱动”。 3、可验证 AI(Verifiable AI)与代币激励融合 可信度不再靠品牌或闭源 API,而靠链上(或可追溯)评估、质押与惩罚。这为“金融级 AI”提供了合规与问责的抓手,也利于多方参与的生态扩展。 目前, $ALLO tge在即, 如果你也对Allora有兴趣,可以参加Kaito的奖励活动,拿空投,赚取 $ALLO 。 #Allora #Allora
Colin Wu
2个月前
突然有种感觉,区块链公链和 AI 大模型有点像,都在大量重复建设,都是这两个行业的底层,用 GPT 讨论了下,还挺深刻: 一样的地方 1. 都是通用基础设施,竞争不可避免。 无论是大模型还是公链,本质上都属于底层通用技术。这类技术的核心特征是:高进入门槛 + 高潜在回报 + 生态型竞争。因此每个国家、公司、基金都希望拥有自己的版本,即使底层相似,也必须重做一遍才能形成独立控制力。 2. 都存在“重复建设”,但源于合理动机。看似重复,其实是技术、算力、合规和利益的必要分化。大模型各家在相同架构(Transformer)下重新训练,是因为数据私有化、算力分布、微调方向都不同;公链项目在 EVM 兼容的前提下再造,是因为要满足不同的性能、监管和经济模型。“重复”反映的不是浪费,而是体系多样化的自然结果。 3. 都在从“造技术”转向“造生态”。 技术门槛已经被攻破,真正的竞争焦点转向生态整合与用户留存。大模型比拼应用生态(Copilot、AI Agent、企业嵌入场景);公链比拼资产生态(DeFi、RWA、L2扩容、游戏应用)。技术同质化后,生态能力决定长期差距。 不一样的地方 1. 技术架构的集中度不同。 大模型趋势是算力与能力集中化——领先者数量在减少,模型规模和推理成本极高,最终形成少数巨头格局;公链则是模块化和分层化——以太坊成为底层共识层,上面出现大量L2、L3和应用链,形成网络化竞争结构。 2. 开源在两者中的作用不同。 开源模型(如LLaMA、Mistral)主要降低了入门成本,但没改变算力和数据集中化格局;而公链的开源(OP Stack、Polygon CDK)则真正扩大了主权与经济创新的空间,让更多团队能在以太坊框架上构建新生态。 3. 商业逻辑的落地方向不同。 大模型的主线是服务商业化——API订阅、企业方案、垂直集成;公链的主线是资本金融化——代币激励、生态投资、流动性经济。前者靠现金流驱动,后者靠资产定价驱动。 总结 > 大模型和公链确实相似:都在重复建设底层、争夺生态主导权。但路径已分化:大模型趋向中心化、商业化复用开源,公链趋向模块化、去中心化复用以太坊。一个追求智能的统一,一个追求价值的多元。