#多智能体话题下的最新新闻、事件- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

4个月前

来自 X 账号 TestingCatalog 的爆料：Google 在 Gemini 企业版（Gemini Enterprise）里新增多智能体「自动做研究」模式 Google 正在 Gemini for Enterprise 里打造一个多智能体系统。你给它一个主题，再配上一套评估标准，它就能自己生成一大堆点子，然后拉起一整支智能体团队，像打锦标赛一样一轮轮评审这些点子。这个系统一次可以连续干活大约 40 分钟。对一个面向普通企业用户的产品来说，这已经是非常长的一次连续推理过程了。在这 40 分钟结束时，用户会收到一大串点子清单，按你一开始设定的标准从优到劣排好名。整个规模也不小：系统一次能产出大约 100 个点子。对每一个点子，你都能拿到： - 一个概览 - 一个更详细的说明 - 一份点评总结 - 一份完整长评 - 以及一份专门的「锦标赛表现报告」（tournament performance report）这个「表现报告」还是一个单独的输出，可以单独打开慢慢看。所有生成出来的点子都是可选择的，你可以点进任意一个，继续深入展开。在当前的内测版本里，Google 看起来内置了三个智能体，其中有两个就是搭在这个多智能体「锦标赛」系统之上的。第一个叫 “Idea Generation”（创意生成）在这个模式里，你只要给一个主题，这个智能体就会启动整套多智能体工作流，用「锦标赛式评估」（tournament-style evaluation）来生成和排序各种相关点子。（所谓锦标赛式，就是不断让方案互相“对决”，胜出的留下，弱的被淘汰）第二个叫 “Co-scientist”（联合科学家）这个则更偏向科研和研究场景。你可以指定一个研究主题，再提供一些额外数据，然后一整个智能体团队会先生成研究方向和方案，再用同样的锦标赛机制去评估这些想法，只是这次会更强调科研和科学探索的需求。这里最有意思的一点，是它背后明显投入了非常夸张的算力。允许智能体在一个任务上连续工作大约 40 分钟，这在现在的大多数智能体工具里都算是「豪华配置」了。在整个 40 分钟里，系统会不断迭代这个问题，不停生成、筛选、打分、重组。目前，这一切都还只出现在 Gemini for Enterprise 里，属于内部开发阶段，对普通用户是隐藏的，还没有以正式功能形式对外开放。跟现有的智能体实现相比，这一套看起来是个明显的前进一大步。就算是那些已经带浏览器模式的高级智能体，通常也会受限于上下文窗口和时间预算（time budget）。而这次，Google 的做法，是直接把一大块算力「摆在台面上」给企业客户用，做成一个正儿八经的前端产品界面。这也和所谓的「Level 3 AI」的概念非常契合：这一层级的 AI 智能体，被描述为可以在同一个问题上持续工作一段较长时间。（这里的 Level 3 并不是统一标准，更像是行业里对“能长时间连续工作的智能体”的一种非正式分级说法）从这个角度看，让智能体在单个任务上跑满 40 分钟，是一个非常典型、甚至偏激进的例子。在实际使用中，这套系统输出的核心是「被充分筛选和精炼过的点子集合」。但它们远不只是随手抛出来的一堆建议，而是可以视为一组结构化的研究方向：在你给定的数据和问题背景下，这些方向有可能真正指向高价值的洞见。所以，Google 正在推进这种极其强力的智能体能力，专门服务于组织、公司和研究团队，这件事本身非常耐人寻味。等这项功能真正对外发布时，很可能会是一次不小的跃迁，尤其是如果这些智能体最终由 Gemini 3 Pro 来驱动的话。现在，Gemini 3 Pro 还没有进入 Gemini Enterprise，所以目前还不清楚这些实验性智能体背后具体用的是哪一个模型。这里依然有很多东西需要测试和验证。当你把一个提示词（prompt）提交给这套系统时，它首先会给出一份「计划做什么」的概要：会在哪些维度上评估、打算从哪些方向出发生成和筛选点子。只有在你确认这份概要之后，系统才会真正启动那次「大任务」。这相当于在烧一大笔算力之前，先和你对齐「我到底打算怎么理解你的问题」。除了多智能体锦标赛工作流之外，Gemini Enterprise 里还有另一个智能体，叫 “chat with your docs”（和文档聊天），它配了一套独立的 UI。这个智能体允许用户上传大小最高 30MB 的 PDF，然后面向这些文档进行专门对话。这个功能同样属于 Gemini Enterprise 的一部分，目前还没有对外发布，而且在生产环境中暂时不可用。它的设计思路是：最多 30MB 的 PDF 内容可以被分析并写入模型的上下文里，这样用户就能从现有文档中抽取更有价值的信息，而不是只靠人自己翻页看。在 Gemini Enterprise 里，还有不少其他功能正在开发中，但真正最抢眼的，还是这两条线： 1. 多智能体锦标赛式工作流 2. 面向文档的专用智能体特别是那个基于锦标赛的多智能体架构，看起来就是一种突破性的产品路线——其他大语言模型（LLM）服务商，目前似乎还没有在这个层级上，给用户提供类似的东西。多智能体锦标赛在面向终端用户的工具里依然非常少见。也许可以拿 Grok Heavy 来做某种对比，但很可能也不能算是和 Google 这套完全同一个方向的东西。等这些智能体成熟之后，如果能看到一套正式的评估结果和基准测试，那会非常有价值。光从现在的描述来看，那个 Co-scientist 智能体已经足够让很多大型组织和研究团队心动——尤其是那些正在探索新科学方向的团队。至于这些智能体具体什么时候会正式上线，或者会不会开放给非企业用户，目前还都是未知数。来源：

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini Enterprise #多智能体 #锦标赛式评估 #AI研究 #算力

Geek

6个月前

Claude Code Workflow (CCW) 是新一代多智能体自动化开发框架，通过智能工作流管理和自主执行协调复杂的软件开发任务。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Claude Code Workflow #CCW #多智能体 #自动化开发框架 #软件开发

响马

7个月前

以前分布式计算有个话题，Scale Up vs Scale Out。现在 ai 遇到的也还是这个问题。如果不能形成持久记忆，从记忆中学习迭代，并通过协作真正实现多智能体的共同学习，单个 ai 再强大也只能停留在一只蚂蚁，而不能成为蚁群。

#分布式计算 #Scale Up vs Scale Out #持久记忆 #多智能体 #共同学习

ginobefun

9个月前

#多智能体之争：Anthropic生态VS单智能体· 81 条信息

#多智能体 #Anthropic #人工智能 #提示词工程 #工具设计 #系统评估 #实战心法 #赛博禅心 #AI 行业

henu王凯

9个月前

重磅：Claude官方分享自己构建多智能体研究系统的经验（就是Claude对话框中Research功能，类似ChatGPT、Gemini等的深度研究功能）。这是一手工程实践经验，对构建任何Agents都是可借鉴的，推荐大家都读下。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Claude #多智能体 #研究系统 #Agents #工程实践经验

马东锡 NLP 🇸🇪

11个月前

「LLM, Agent」论文 MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations 有趣paper，Multi Agent能否模拟“社会实验沙盒”？这篇论文做了一件有趣的事，用LLM 扮演一群虚拟用户，在模拟社交平台上行为。具体来说，MOSAIC 构建了一个Multi Agent的社交模拟系统：每个 agent 拥有独立画像，其行为由LLM驱动，不仅能点赞、转发、评论，还会为自己的行为给出解释。系统整体可用于测试不同的内容治理策略，例如模拟X的的 Community Notes。结果显示，Agent 在点赞、评论等行为上与人类高度相似；但 Agent 的行为解释与实际决策存在偏差。在方法上，这是对social science传统研究方法的大胆创新。然而，许多关键问题，即便在 LLM 自身的研究中未有答案，比如：Agent 是否能真正捕捉人类的情感与心理动机？是否能呈现社会关系中结构性的复杂交互？用multi agent来模拟大规模社会实验，似乎不可信；但若有一天它真的变得可信... Lost in thought...

#多智能体 #社会实验 #社交平台 #虚拟用户 #行为模拟 #论文研究 #LLM应用