时政
财经
科技
虚拟货币
其他
登录
#多智能体
关注
宝玉
1个月前
来自 X 账号 TestingCatalog 的爆料:Google 在 Gemini 企业版(Gemini Enterprise)里新增多智能体「自动做研究」模式 Google 正在 Gemini for Enterprise 里打造一个多智能体系统。你给它一个主题,再配上一套评估标准,它就能自己生成一大堆点子,然后拉起一整支智能体团队,像打锦标赛一样一轮轮评审这些点子。 这个系统一次可以连续干活大约 40 分钟。对一个面向普通企业用户的产品来说,这已经是非常长的一次连续推理过程了。 在这 40 分钟结束时,用户会收到一大串点子清单,按你一开始设定的标准从优到劣排好名。整个规模也不小:系统一次能产出大约 100 个点子。对每一个点子,你都能拿到: - 一个概览 - 一个更详细的说明 - 一份点评总结 - 一份完整长评 - 以及一份专门的「锦标赛表现报告」(tournament performance report) 这个「表现报告」还是一个单独的输出,可以单独打开慢慢看。所有生成出来的点子都是可选择的,你可以点进任意一个,继续深入展开。 在当前的内测版本里,Google 看起来内置了三个智能体,其中有两个就是搭在这个多智能体「锦标赛」系统之上的。 第一个叫 “Idea Generation”(创意生成) 在这个模式里,你只要给一个主题,这个智能体就会启动整套多智能体工作流,用「锦标赛式评估」(tournament-style evaluation)来生成和排序各种相关点子。(所谓锦标赛式,就是不断让方案互相“对决”,胜出的留下,弱的被淘汰) 第二个叫 “Co-scientist”(联合科学家) 这个则更偏向科研和研究场景。你可以指定一个研究主题,再提供一些额外数据,然后一整个智能体团队会先生成研究方向和方案,再用同样的锦标赛机制去评估这些想法,只是这次会更强调科研和科学探索的需求。 这里最有意思的一点,是它背后明显投入了非常夸张的算力。允许智能体在一个任务上连续工作大约 40 分钟,这在现在的大多数智能体工具里都算是「豪华配置」了。 在整个 40 分钟里,系统会不断迭代这个问题,不停生成、筛选、打分、重组。目前,这一切都还只出现在 Gemini for Enterprise 里,属于内部开发阶段,对普通用户是隐藏的,还没有以正式功能形式对外开放。 跟现有的智能体实现相比,这一套看起来是个明显的前进一大步。就算是那些已经带浏览器模式的高级智能体,通常也会受限于上下文窗口和时间预算(time budget)。 而这次,Google 的做法,是直接把一大块算力「摆在台面上」给企业客户用,做成一个正儿八经的前端产品界面。这也和所谓的「Level 3 AI」的概念非常契合:这一层级的 AI 智能体,被描述为可以在同一个问题上持续工作一段较长时间。(这里的 Level 3 并不是统一标准,更像是行业里对“能长时间连续工作的智能体”的一种非正式分级说法)从这个角度看,让智能体在单个任务上跑满 40 分钟,是一个非常典型、甚至偏激进的例子。 在实际使用中,这套系统输出的核心是「被充分筛选和精炼过的点子集合」。但它们远不只是随手抛出来的一堆建议,而是可以视为一组结构化的研究方向:在你给定的数据和问题背景下,这些方向有可能真正指向高价值的洞见。所以,Google 正在推进这种极其强力的智能体能力,专门服务于组织、公司和研究团队,这件事本身非常耐人寻味。 等这项功能真正对外发布时,很可能会是一次不小的跃迁,尤其是如果这些智能体最终由 Gemini 3 Pro 来驱动的话。现在,Gemini 3 Pro 还没有进入 Gemini Enterprise,所以目前还不清楚这些实验性智能体背后具体用的是哪一个模型。 这里依然有很多东西需要测试和验证。当你把一个提示词(prompt)提交给这套系统时,它首先会给出一份「计划做什么」的概要:会在哪些维度上评估、打算从哪些方向出发生成和筛选点子。只有在你确认这份概要之后,系统才会真正启动那次「大任务」。这相当于在烧一大笔算力之前,先和你对齐「我到底打算怎么理解你的问题」。 除了多智能体锦标赛工作流之外,Gemini Enterprise 里还有另一个智能体,叫 “chat with your docs”(和文档聊天),它配了一套独立的 UI。这个智能体允许用户上传大小最高 30MB 的 PDF,然后面向这些文档进行专门对话。 这个功能同样属于 Gemini Enterprise 的一部分,目前还没有对外发布,而且在生产环境中暂时不可用。它的设计思路是:最多 30MB 的 PDF 内容可以被分析并写入模型的上下文里,这样用户就能从现有文档中抽取更有价值的信息,而不是只靠人自己翻页看。 在 Gemini Enterprise 里,还有不少其他功能正在开发中,但真正最抢眼的,还是这两条线: 1. 多智能体锦标赛式工作流 2. 面向文档的专用智能体 特别是那个基于锦标赛的多智能体架构,看起来就是一种突破性的产品路线——其他大语言模型(LLM)服务商,目前似乎还没有在这个层级上,给用户提供类似的东西。多智能体锦标赛在面向终端用户的工具里依然非常少见。也许可以拿 Grok Heavy 来做某种对比,但很可能也不能算是和 Google 这套完全同一个方向的东西。 等这些智能体成熟之后,如果能看到一套正式的评估结果和基准测试,那会非常有价值。光从现在的描述来看,那个 Co-scientist 智能体已经足够让很多大型组织和研究团队心动——尤其是那些正在探索新科学方向的团队。 至于这些智能体具体什么时候会正式上线,或者会不会开放给非企业用户,目前还都是未知数。 来源:
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#Gemini Enterprise
#多智能体
#锦标赛式评估
#AI研究
#算力
分享
评论 0
0
Geek
3个月前
Claude Code Workflow (CCW) 是新一代多智能体自动化开发框架,通过智能工作流管理和自主执行协调复杂的软件开发任务。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude Code Workflow
#CCW
#多智能体
#自动化开发框架
#软件开发
分享
评论 0
0
响马
4个月前
以前分布式计算有个话题,Scale Up vs Scale Out。现在 ai 遇到的也还是这个问题。如果不能形成持久记忆,从记忆中学习迭代,并通过协作真正实现多智能体的共同学习,单个 ai 再强大也只能停留在一只蚂蚁,而不能成为蚁群。
#分布式计算
#Scale Up vs Scale Out
#持久记忆
#多智能体
#共同学习
分享
评论 0
0
ginobefun
6个月前
整理了 网站周末一些优质的文章,推荐给大家阅读~ ① 🤖 研究多智能体必读指南: - Anthropic 官方发布权威指南,详解如何通过“协调者-执行者”架构构建多智能体研究系统,将任务性能提升 90%。 - 文章深入剖析了从提示词工程、工具设计到系统评估的全链路实战心法,是多智能体开发者必读的实战手册。 📖 详细: ② 🤖 赛博禅心等联合出品的 AI 行业 5 月大事记: - 一文看尽 Google I/O 全线爆发、Claude 4 重夺编程王座、Veo 3 让视频开口说话等重磅进展。 - 报告洞察“模型大战已结束,应用大战正开启”的行业拐点,垂直 Agent 与 AI 原生应用成为商业化新捷径。 📖 详细: ③ 🧠 苹果设计老将 Bob Baxley 的设计哲学: - 设计远不止美学,它是一种构想并实现理想未来的战略思维,而软件是一种能触动人心的情感媒介。 - 文章深入探讨了科技从业者的道义责任、如何用明确的“设计宗旨”而非空泛的“原则” 指导决策,以及在新旧文化中转换的关键。 📖 详细: 英文播客: 中文版: ④ 🤖 拾象科技深度对谈 Agent 的真问题与真机会: - 核心观点认为,Agent 的真正门槛不在于模型本身,而在于其赖以生存的底层设施,这恰是当下的创业蓝海。 - 对话指出 Coding 是通往 AGI 的“价值高地”与“关键试炼场”,并为创业公司规划了从 Copilot 平滑过渡到 Agent 的务实路径。 📖 详细: ⑤ 🌐 Agentic Browser: 通用 Agent 的下一站? - 文章指出,为突破传统 OS 的“生态囚笼”,通用 Agent 正将浏览器作为新载体,其核心是实现“代替用户行动”而非仅仅“辅助浏览”。 - 这场竞争的本质是对用户跨应用“上下文”的控制权,Agentic Browser 的终极路径是从信息入口演进为全新的 AI 操作系统。 📖 详细: ⑥ 🚀 AI 工程师世界博览会 2025 官方复盘: - 一场汇集超 3000 名从业者、见证 Gemini 2.5 Pro 与 Dagger for Agents 等重磅发布的行业风向标。 - 核心趋势是行业全面转向 Agent,从“智能体工厂”到“容器化混沌”,AI 工程师正在定义下一代应用范式与基础设施。 📖 详细: ⑦ 🤖 SaaS 巨头 Intercom 的 AI 转型之路: - Intercom 正上演一场“自我毁灭式”的 AI 重生:在“战时 CEO”带领下,彻底抛弃按席位收费的传统模式,转向按 AI Agent 解决问题的效果付费。 - 文章深度剖析其将核心 AI 部署到竞品平台的反直觉战略,以及如何通过极端组织变革,带领公司从“辅助人类工作”转向“替代人类工作”。 📖 详细: ⑧ 🏗️ 白鲸开源 CEO 郭炜:传统数据仓库正在被 Agentic AI 吞噬 - 当数据的主要消费者从“人”转向 AI Agent,为人类决策支持而设计的传统数据仓库架构正面临范式颠覆。 - 文章前瞻性地提出下一代 Agentic Data Stack 架构,其核心是将“结构与查询”模式转变为“语义与响应”模式,重塑数据全链路。 📖 详细: ⑨ 💻 Cursor AI 编辑器保姆级入门指南: - 专为解决“起步即劝退”的配置难题,提供一站式插件清单、快捷键与实用技巧。 - 内含一套完整的 `settings.json` 与 `launch.json` 懒人配置,帮助 Java 开发者快速将 Cursor 打造为媲美 IDEA 的高效 AI 编程环境。 📖 详细: ⑩ 💡李继刚的 Prompt 设计: - 作者分享了“模式觉察者”、“标题炼金师”、“趣味数学”三则大师级 Prompt,旨在为 AI 注入特定领域的“灵魂”。 - 其精妙之处在于,它们不止是任务指令,而是通过构建完整的人格、核心信念与价值体系,将抽象的创作能力升华为一种独特的思维哲学。 📖 详细:
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#多智能体
#Anthropic
#人工智能
#提示词工程
#工具设计
#系统评估
#实战心法
#赛博禅心
#AI 行业
分享
评论 0
0
henu王凯
6个月前
重磅:Claude官方分享自己构建多智能体研究系统的经验(就是Claude对话框中Research功能,类似ChatGPT、Gemini等的深度研究功能)。 这是一手工程实践经验,对构建任何Agents都是可借鉴的,推荐大家都读下。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude
#多智能体
#研究系统
#Agents
#工程实践经验
分享
评论 0
0
马东锡 NLP 🇸🇪
8个月前
「LLM, Agent」论文 MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations 有趣paper,Multi Agent能否模拟“社会实验沙盒”? 这篇论文做了一件有趣的事,用LLM 扮演一群虚拟用户,在模拟社交平台上行为。 具体来说,MOSAIC 构建了一个Multi Agent的社交模拟系统:每个 agent 拥有独立画像,其行为由LLM驱动,不仅能点赞、转发、评论,还会为自己的行为给出解释。 系统整体可用于测试不同的内容治理策略, 例如模拟X的的 Community Notes。 结果显示,Agent 在点赞、评论等行为上与人类高度相似;但 Agent 的行为解释与实际决策存在偏差。 在方法上,这是对social science传统研究方法的大胆创新。然而,许多关键问题,即便在 LLM 自身的研究中未有答案,比如:Agent 是否能真正捕捉人类的情感与心理动机?是否能呈现社会关系中结构性的复杂交互? 用multi agent来模拟大规模社会实验,似乎不可信;但若有一天它真的变得可信... Lost in thought...
#多智能体
#社会实验
#社交平台
#虚拟用户
#行为模拟
#论文研究
#LLM应用
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞