时政
财经
科技
虚拟货币
其他
登录
#复杂推理
关注
𝗖𝘆𝗱𝗶𝗮𝗿
2周前
三更半夜和 Juchats 一起读了一篇论文,睡不着了。 Sapient Intelligence 团队发表的论文提出了一种创新的层次推理模型(Hierarchical Reasoning Model, HRM),灵感来源于人脑的层次化和多时间尺度处理机制。该模型仅用2700万参数和1000个训练样本,就在复杂推理任务上取得了突破性性能,超越了当前最先进的大语言模型和思维链(Chain-of-Thought, CoT)方法。 基准测试任务: 1. ARC-AGI挑战 ○ 目标:评估通用流体智能的归纳推理能力 ○ 难度:需要从少量示例中提取和泛化抽象规则 ○ HRM性能:40.3%,显著超越o3-mini-high(34.5%)和Claude 3.7(21.2%) 2. Sudoku-Extreme ○ 创新:构建了更具挑战性的数据集,平均需要22次回溯 ○ HRM性能:近乎完美准确率,而CoT方法完全失败(0%准确率) 3. Maze-Hard ○ 任务:30×30迷宫中的最优路径查找 ○ HRM性能:成功解决,而基线模型表现不佳 性能对比: ○ 数据效率:仅需1000个训练样本 ○ 参数效率:仅2700万参数 ○ 无需预训练:从随机初始化开始训练 ○ 超越CoT:在复杂推理任务上显著优于基于思维链的方法 不同任务的推理策略: ○ 迷宫任务:同时探索多条路径,逐步消除阻塞路线 ○ 数独任务:类似深度优先搜索,遇到死路时回溯 ○ ARC任务:增量式调整,类似爬山优化 未来研究方向: ○ 因果验证:通过干预实验验证层次结构的必要性 ○ 架构优化:探索更复杂的模块合并机制 ○ 扩展应用:将HRM应用于更广泛的推理任务 ○ 理论深化:进一步理解HRM的计算理论基础 公司概况: Sapient Intelligence 是一家全球领先的AGI研究公司,总部位于新加坡,并在旧金山和北京设有研究中心。该公司自称是"新加坡第一家基础模型AI创业公司",专注于开发新一代基础模型架构,旨在解决复杂和"长时程推理"任务。 公司使命与愿景: Sapient Intelligence 的使命是通过开发全新的架构来实现人工通用智能(AGI),该架构整合了强化学习、进化算法和神经科学研究,以突破当前大型语言模型(LLM)的局限性。 公司创始人表示:"AGI 真正的是赋予机器人类水平的智能,并最终超越人类的智能"
#层次推理模型
#HRM
#Sapient Intelligence
#AGI
#复杂推理
分享
评论 0
0
EC Elliot
2个月前
字节的多模态模型 - BAGEl - 开源免费 对比优势 • 多模态理解、生成和编辑能力在主流榜单上整体领先,超越 Qwen2.5-VL、InternVL-2.5、SD3 等开源模型 • 图像生成质量高,细节丰富,媲美 SD3 • 图像编辑、风格迁移、自由视觉操作等功能更强 • 支持多轮对话、复杂推理和世界建模,综合能力突出 线上直接体验 官网 Github
#多模态模型
#BAGEl
#字节
#Qwen2.5-VL
#InternVL-2.5
#SD3
#图像生成
#图像编辑
#风格迁移
#自由视觉操作
#多轮对话
#复杂推理
#世界建模
#开源模型
分享
评论 0
0
宝玉
2个月前
techcrunch:Anthropic 发布全新Claude 4 AI模型:可进行复杂多步推理 作者:Kyle Wiggers 在本周四举行的首次开发者大会上,Anthropic推出了两款全新的AI模型,据称在多项业界流行的评测基准中名列前茅。 新推出的Claude Opus 4和Claude Sonnet 4属于Anthropic最新的Claude 4系列,这些模型具备分析大型数据集、执行长期复杂任务以及采取多步骤复杂行动的能力。Anthropic特别指出,这两款模型在编程任务上的表现尤其出色,非常适合用于代码编写和编辑。 新模型如何使用和收费? - Claude Sonnet 4: - 面向免费和付费用户开放。 - API费用(经亚马逊Bedrock与谷歌Vertex AI提供): - 输入:每百万token 3美元。 - 输出:每百万token 15美元。 - Claude Opus 4: - 仅限付费用户。 - API费用(经亚马逊Bedrock与谷歌Vertex AI提供): - 输入:每百万token 15美元。 - 输出:每百万token 75美元。 (备注:一个token相当于模型处理数据的最小单位,一百万token约合75万单词,比名著《战争与和平》全文还多约16.3万字。) 新模型的背景与竞争格局 此次Claude 4模型的发布正值Anthropic寻求显著提高营收之际。据称,这家由前OpenAI研究员创立的公司,计划2027年达到120亿美元营收,而今年预计为22亿美元。此前,Anthropic刚刚获得了25亿美元的信贷额度,并从亚马逊等投资方筹集了数十亿美元资金,以应对不断上涨的前沿模型开发成本。 不过,竞争对手也并未让Anthropic轻松保持优势。就在今年初,Anthropic推出旗舰模型Claude Sonnet 3.7以及代码助手工具Claude Code的同时,OpenAI与谷歌迅速推出各自更强大的模型和开发工具,试图超越Anthropic。 面对激烈竞争,Anthropic此次推出Claude 4显然志在必得。 Claude 4模型有哪些具体优势? Claude 4系列包括两个版本,各有侧重: - Opus 4: - 擅长保持多步骤任务的持续专注能力。 - 在代码能力基准测试(如SWE-bench Verified)中,击败谷歌Gemini 2.5 Pro、OpenAI的o3和GPT-4.1等竞争对手。 - 在多模态测试(如MMMU)和高难度理科题(如GPQA Diamond)上表现略逊于OpenAI的o3。 - 配备更严格的安全机制,包括增强的有害内容检测和网络安全防护,但由于其能力极强,内部测试发现可能“显著增加”具备STEM背景人士获取化学、生物、核武器信息或能力的风险,达到Anthropic的ASL-3安全标准。 - Sonnet 4: - 为Sonnet 3.7的直接升级版本,显著提升了代码编写和数学计算能力。 - 更精准地遵循用户指令,减少模型“奖励破解”(即通过钻漏洞或捷径完成任务)的情况。 新模型的独特设计与功能亮点 Claude 4系列模型均为“混合”模型,不仅能够实现近乎实时的快速响应,还可以在“推理模式”下进行更深层次的思考,以提高答案的准确性和深度(虽然AI的“推理”和人类有一定差异)。 模型在进行推理时,会以易于理解的方式展示思考过程的概要。Anthropic解释说,这种方式不仅友好,也能保护其技术上的竞争优势。 此外,这些模型还能同时调用多个工具(例如搜索引擎),并在工具调用和自身推理之间切换,以进一步提高答案质量。Claude 4还具备“记忆”功能,能提取并保存信息,更稳定地完成任务,逐渐积累Anthropic所称的“隐性知识”(tacit knowledge)。 面向开发者的强化工具Claude Code 为了方便开发者更好地利用新模型,Anthropic推出了针对程序员的升级版Claude Code工具: - Claude Code现已支持与主流集成开发环境(IDE)进行整合。 - 新增Claude Code SDK,可以作为子进程运行在主流操作系统上,便于开发者创建更强大的AI编程助手和工具。 - Claude Code已发布针对微软VS Code、JetBrains以及GitHub的插件和连接器。其中GitHub连接器可用于回复代码审阅意见、修复错误或修改代码。 AI生成代码现状与未来 尽管AI生成代码的能力尚有不足,容易产生安全漏洞和逻辑错误,但其提高生产效率的潜力仍然驱动公司与开发者快速采纳这些工具。 Anthropic清楚认识到这一挑战,并承诺未来将加快模型迭代速度:“我们正转向更频繁的模型更新节奏,不断为客户带来突破性能力,使用户始终处于技术的最前沿。”
#Anthropic
#Claude 4
#AI模型
#复杂推理
#开发者大会
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞