#复杂推理

𝗖𝘆𝗱𝗶𝗮𝗿

7个月前

三更半夜和 Juchats 一起读了一篇论文，睡不着了。 Sapient Intelligence 团队发表的论文提出了一种创新的层次推理模型（Hierarchical Reasoning Model, HRM），灵感来源于人脑的层次化和多时间尺度处理机制。该模型仅用2700万参数和1000个训练样本，就在复杂推理任务上取得了突破性性能，超越了当前最先进的大语言模型和思维链（Chain-of-Thought, CoT）方法。基准测试任务： 1. ARC-AGI挑战 ○ 目标：评估通用流体智能的归纳推理能力 ○ 难度：需要从少量示例中提取和泛化抽象规则 ○ HRM性能：40.3%，显著超越o3-mini-high（34.5%）和Claude 3.7（21.2%） 2. Sudoku-Extreme ○ 创新：构建了更具挑战性的数据集，平均需要22次回溯 ○ HRM性能：近乎完美准确率，而CoT方法完全失败（0%准确率） 3. Maze-Hard ○ 任务：30×30迷宫中的最优路径查找 ○ HRM性能：成功解决，而基线模型表现不佳性能对比： ○ 数据效率：仅需1000个训练样本 ○ 参数效率：仅2700万参数 ○ 无需预训练：从随机初始化开始训练 ○ 超越CoT：在复杂推理任务上显著优于基于思维链的方法不同任务的推理策略： ○ 迷宫任务：同时探索多条路径，逐步消除阻塞路线 ○ 数独任务：类似深度优先搜索，遇到死路时回溯 ○ ARC任务：增量式调整，类似爬山优化未来研究方向： ○ 因果验证：通过干预实验验证层次结构的必要性 ○ 架构优化：探索更复杂的模块合并机制 ○ 扩展应用：将HRM应用于更广泛的推理任务 ○ 理论深化：进一步理解HRM的计算理论基础公司概况： Sapient Intelligence 是一家全球领先的AGI研究公司，总部位于新加坡，并在旧金山和北京设有研究中心。该公司自称是"新加坡第一家基础模型AI创业公司"，专注于开发新一代基础模型架构，旨在解决复杂和"长时程推理"任务。公司使命与愿景： Sapient Intelligence 的使命是通过开发全新的架构来实现人工通用智能（AGI），该架构整合了强化学习、进化算法和神经科学研究，以突破当前大型语言模型（LLM）的局限性。公司创始人表示："AGI 真正的是赋予机器人类水平的智能，并最终超越人类的智能"

#层次推理模型 #HRM #Sapient Intelligence #AGI #复杂推理

9个月前

字节的多模态模型 - BAGEl - 开源免费对比优势 • 多模态理解、生成和编辑能力在主流榜单上整体领先，超越 Qwen2.5-VL、InternVL-2.5、SD3 等开源模型 • 图像生成质量高，细节丰富，媲美 SD3 • 图像编辑、风格迁移、自由视觉操作等功能更强 • 支持多轮对话、复杂推理和世界建模，综合能力突出线上直接体验官网 Github

#多模态模型 #BAGEl #字节 #Qwen2.5-VL #InternVL-2.5 #SD3 #图像生成 #图像编辑 #风格迁移 #自由视觉操作 #多轮对话 #复杂推理 #世界建模 #开源模型

10个月前

techcrunch：Anthropic 发布全新Claude 4 AI模型：可进行复杂多步推理作者：Kyle Wiggers 在本周四举行的首次开发者大会上，Anthropic推出了两款全新的AI模型，据称在多项业界流行的评测基准中名列前茅。新推出的Claude Opus 4和Claude Sonnet 4属于Anthropic最新的Claude 4系列，这些模型具备分析大型数据集、执行长期复杂任务以及采取多步骤复杂行动的能力。Anthropic特别指出，这两款模型在编程任务上的表现尤其出色，非常适合用于代码编写和编辑。新模型如何使用和收费？ - Claude Sonnet 4： - 面向免费和付费用户开放。 - API费用（经亚马逊Bedrock与谷歌Vertex AI提供）： - 输入：每百万token 3美元。 - 输出：每百万token 15美元。 - Claude Opus 4： - 仅限付费用户。 - API费用（经亚马逊Bedrock与谷歌Vertex AI提供）： - 输入：每百万token 15美元。 - 输出：每百万token 75美元。（备注：一个token相当于模型处理数据的最小单位，一百万token约合75万单词，比名著《战争与和平》全文还多约16.3万字。）新模型的背景与竞争格局此次Claude 4模型的发布正值Anthropic寻求显著提高营收之际。据称，这家由前OpenAI研究员创立的公司，计划2027年达到120亿美元营收，而今年预计为22亿美元。此前，Anthropic刚刚获得了25亿美元的信贷额度，并从亚马逊等投资方筹集了数十亿美元资金，以应对不断上涨的前沿模型开发成本。不过，竞争对手也并未让Anthropic轻松保持优势。就在今年初，Anthropic推出旗舰模型Claude Sonnet 3.7以及代码助手工具Claude Code的同时，OpenAI与谷歌迅速推出各自更强大的模型和开发工具，试图超越Anthropic。面对激烈竞争，Anthropic此次推出Claude 4显然志在必得。 Claude 4模型有哪些具体优势？ Claude 4系列包括两个版本，各有侧重： - Opus 4： - 擅长保持多步骤任务的持续专注能力。 - 在代码能力基准测试（如SWE-bench Verified）中，击败谷歌Gemini 2.5 Pro、OpenAI的o3和GPT-4.1等竞争对手。 - 在多模态测试（如MMMU）和高难度理科题（如GPQA Diamond）上表现略逊于OpenAI的o3。 - 配备更严格的安全机制，包括增强的有害内容检测和网络安全防护，但由于其能力极强，内部测试发现可能“显著增加”具备STEM背景人士获取化学、生物、核武器信息或能力的风险，达到Anthropic的ASL-3安全标准。 - Sonnet 4： - 为Sonnet 3.7的直接升级版本，显著提升了代码编写和数学计算能力。 - 更精准地遵循用户指令，减少模型“奖励破解”（即通过钻漏洞或捷径完成任务）的情况。新模型的独特设计与功能亮点 Claude 4系列模型均为“混合”模型，不仅能够实现近乎实时的快速响应，还可以在“推理模式”下进行更深层次的思考，以提高答案的准确性和深度（虽然AI的“推理”和人类有一定差异）。模型在进行推理时，会以易于理解的方式展示思考过程的概要。Anthropic解释说，这种方式不仅友好，也能保护其技术上的竞争优势。此外，这些模型还能同时调用多个工具（例如搜索引擎），并在工具调用和自身推理之间切换，以进一步提高答案质量。Claude 4还具备“记忆”功能，能提取并保存信息，更稳定地完成任务，逐渐积累Anthropic所称的“隐性知识”（tacit knowledge）。面向开发者的强化工具Claude Code 为了方便开发者更好地利用新模型，Anthropic推出了针对程序员的升级版Claude Code工具： - Claude Code现已支持与主流集成开发环境（IDE）进行整合。 - 新增Claude Code SDK，可以作为子进程运行在主流操作系统上，便于开发者创建更强大的AI编程助手和工具。 - Claude Code已发布针对微软VS Code、JetBrains以及GitHub的插件和连接器。其中GitHub连接器可用于回复代码审阅意见、修复错误或修改代码。 AI生成代码现状与未来尽管AI生成代码的能力尚有不足，容易产生安全漏洞和逻辑错误，但其提高生产效率的潜力仍然驱动公司与开发者快速采纳这些工具。 Anthropic清楚认识到这一挑战，并承诺未来将加快模型迭代速度：“我们正转向更频繁的模型更新节奏，不断为客户带来突破性能力，使用户始终处于技术的最前沿。”

#Anthropic #Claude 4 #AI模型 #复杂推理 #开发者大会