时政
财经
科技
虚拟货币
其他
登录
#agent
关注
supermao
1个月前
很遗憾 大家说 2025 年是 Agent 元年,大家期待的那种各个领域的 Agent 大爆发并没有出现 我整体来说是失望的 因为这一年最爆的是 Coding Agent 本来大家期待的泛化到其他方向的 Agent 并没有出现 从年初到年底,只有一个 Coding Agent 独苗
#Agent元年
#Coding Agent
#失望
#2025年
#agent
分享
评论 0
0
张小吉
1个月前
#n8n 自动化发现 #reddit 子论坛线索的流程,充分调动 #agent 的能力,让 agent 自己去找有哪些合适的子论坛,接下来泡咖啡等结果,llms 真的是伟大的发明
#n8n 自动化
#reddit 子论坛
#agent
#LLMs
#积极
分享
评论 0
0
Hubble AI 中文
1个月前
在金融场景中,大模型的核心瓶颈并非算力,而是缺乏可靠的上下文。 金融数据高度结构化、实时性强、细节敏感——一旦缺少准确的链上上下文,模型的推理就会偏离,Agent 的行为也难以保持稳定。 Hubble 的工作,就是把这层关键语境补齐。 我们为 Agent 提供一套面向 AI 的链上数据与执行接口,让模型能够在统一的数据语义下理解市场、调用信息、生成可落地的决策。 依托 Text-to-SQL、RAG 强化的多 Agent 协作体系 与 Model Context Protocol(MCP),Agent 可以直接访问链上数据、获得明确上下文、并可靠执行,不需要额外拼接复杂的工具链。 让大模型“理解市场”,而不仅仅是“处理数据”。
#金融场景
#大模型
#链上数据
#agent
#市场理解
分享
评论 0
0
Orange AI
1个月前
Claude Opus 4.5 终于发布,依旧是 Coding 和 Agent 之王。 在这两个方面,比 Gemini 3 还要好。 它的智力超强,无须过多指导就能权衡取舍。 可以完成很多 Sonnet 4.5 无法完成的任务。 虽然 Opus 4.5 比 Sonnet 4.5 贵 60% 但是 Opus 在思考 token 减少 76% 的情况下,效果依然超过了 Sonnet
Claude Skills系统发布引发AI行业新变革· 66 条信息
#Claude Opus 4.5
#coding
#agent
#Gemini 3
#Sonnet 4.5
分享
评论 0
0
噪点noisepoint
1个月前
最近看了吴恩达教授的2个AI公开课视频,非常不错,完全免费! 一个是agent的原理及实战,涉及agent从设计、开发、到上线的各个环节,重点介绍了tool use、memory、reflection等几个核心要素 一个是和claude官方合录的claude code教程视频,完整介绍了如何高效、准确使用cc来进行需求沟通、开发工具;还分享了3个cc实操案例,顺带介绍了rag、 mcp相关知识; 对ai产品、agent、vibe coding有兴趣的可以看下 视频地址见下方⬇️
#吴恩达
#AI公开课
#agent
#Claude
#Vibe Coding
分享
评论 0
0
响马
1个月前
markdown 文档图表军火库。 写文档的时候,把图表库 clone 到文档目录,把图表库路径告诉 agent,让它根据文档内容,自由选择最合适的图表。 如果有特殊需求,可以将指定图表的文件给 agent 要求它用。 如果 agent 绘制图表出错,可以把样本文件给它让它照抄。
#markdown文档
#图表军火库
#文档目录
#agent
#图表绘制
分享
评论 0
0
空谷 Arvin Xu
1个月前
其实我个人最好奇的是 Gemini 3.0 Pro 的工具调用能力,因为工具调用能力基本决定了驱动 Agent 的上限。之前聊架构方案还是 2.5 Pro 最 solid ,但它的问题就是不爱调工具,所以不太适合作为驱动 Agent 的核心。 然后刚刚用 LobeHub 桌面端的 Local System 插件写了个手上的性能优化需求测试了下,整个分析很准确,实现也很精准,在我们这样一个近 20w+ 行代码的项目要做到这一点还是比较不容易了的。 这次测试并没有很强的提示词工程约束,Gemini 3.0 Pro 累计用时 17 分钟完成了这个任务,总共调用了 63 次工具,消耗 3.5M token ,花费 1.5 刀。我感觉这样一个相对白坯的情况下,这个程度还是挺让人满意了,用来做 agent 应该是个还挺不错的选项了
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#Gemini 3.0 Pro
#工具调用能力
#agent
#性能优化
#lobehub
分享
评论 0
0
𝗖𝘆𝗱𝗶𝗮𝗿
1个月前
之前多次提到 Google 在 AI 赛道的崛起有非常多征兆,我们可以看看整条时间线,如果不是《反垄断法案》限制,要来的更早。从 Google Bard 诞生 到 Gemini,从 Agent 白皮书发布 到 Prompt Engineer 指南,从 GCP 到 Vertex,最后是整个世界数据完整的内网闭环。Google 从未缺席,甚至是优先发布。
谷歌Deep Research:AI操作系统雏形?· 145 条信息
#Google
#AI
#Gemini
#反垄断法案
#agent
分享
评论 0
0
Orange AI
1个月前
Manus 虽然黑子很多,问题也很多,并且持续要面对大厂已经在抄你了你怎么办的命题 但在技术上还是神奇地保持着领先 在完成人类真实的自动化任务方面,完成了 2.5%,比几个头部模型厂商做的都要好一点点 听张涛在在葡萄牙里斯本 web summit 的分享 重点讲到:工具的网络效应、主动性的Agent、长时任务基建 这些都是 Agent 发展的前沿领域 在未来几年,随着 Agent 基建的进步,2.5% 的完成率会逐渐提高 那到时候 AI 会取代人类吗? Manus 的答案是 Extend Human Reach,Agent 是人类的延伸。
#Manus
#agent
#自动化任务
#AI
#Extend Human Reach
分享
评论 0
0
Michael Anti
1个月前
Claude Code真的是掀起了Agent的新风潮,而且和国产AI配合,效果真的不错。同样的选题指令,用CC+Kimi-for-coding的效果,竟然比Gemini Deep Research好。
Claude Skills系统发布引发AI行业新变革· 66 条信息
#Claude Code
#agent
#Kimi-for-coding
#Gemini Deep Research
#AI
分享
评论 0
0
向阳乔木
1个月前
计划月底去深圳,给一个芯片公司做AI发展现状分享。 准备资料时,搜到拾象对2025 AGI主线思考的PDF。 短短半年过去,很多已经成了共识,预判很准。 Scridb网站付费下载过来,需要的评论发大家。 列几条: 1. 以“任务长度”作为衡量 AI Agent 能力标准,Agent 能力每 7 个月能力翻一倍。 2. 垂直 Agent 是今年硅谷最热创业主题之一:50+YC W25的项目和Speedrun 30% 的项目都在做垂直 agent。 agent 主要落地在直接产生收入的场景,如营销、销售、客服等。 3. 从 ChatGPT 发布以来,二级市场科技公司的涨幅一直主要由AI 驱动,投AI 才是投科技。 最大非共识: Pre-training 决定一切(预训练决定模型能力上限) RL+post-training 是对模型潜力的最大化发掘,但不会涌现新能力。
#深圳
#芯片公司
#AI发展
#AGI
#agent
分享
评论 0
0
Limbo
1个月前
使用Warp 建议关掉 Natural language detection. 否则输入一个 ls 它都能给你跑 Agent 消耗几个credits.
#Warp
#Natural language detection
#agent
#credits
分享
评论 0
0
宝玉
2个月前
我现在是 Agent 信徒 + 手搓,Tab 反而最少 1. 先用 Agent 快速实现完整功能,不必在意质量,但核心是完整实现需求,走通各个流程,了解各种边界条件 2. 然后基于需求和完整的流程,重新思考设计架构,再手搓+Agent 这样既可以兼顾速度,又可以保证质量
#agent
#手搓
#效率
#架构设计
#软件开发
分享
评论 0
0
howie.serious
2个月前
跑在 chatgpt atlas 里的那个 agent,谁有什么真实可用的、有价值的 use case 吗? browser agent 这个类别,和 claude code 类 文件系统 agent 比起来,实用性还是差很多啊。 目前 browser agent 的实用价值,主要被 llm 操作计算机的能力被限制住了。期待模型能力能持续发展,就像视频生成模型这一年里的突飞猛进那样(具体的例子,就是威尔史密斯吃意大利面)。
#ChatGPT
#agent
#Browser Agent
#LLM
#模型能力
分享
评论 0
0
Dawei Ma
2个月前
试了下 ChatGPT 新出的浏览器 Atlas,虽然有智慧但不多,我让它操作:打开策引 A 股 2 号和另外一个组合对比表现,花了 近 7 分钟,远不及预期,但是蹒跚学步,这个开始还是具有历史性的,理想中的 Agent 能利用人类账户干一些重复性的体力活,而浏览器是个非常好的切入口,继续关注吧
#ChatGPT
#Atlas浏览器
#A股
#agent
#效率待提高
分享
评论 0
0
Soulogic
2个月前
突然想起我的第二份工作,03 年,我在做一个汽车配件查询网站,打算是给保险公司用的,这样理赔价格就透明了。可想而知都不用理赔员抗议,他们的头头就给拦下来了 最近想用 agent 做一些项目组简报什么的,每周各个组都要做各种简报给领导看,其实这事很机械,浪费了大量的人力 但估计会有类似的压力
#汽车配件查询网站
#保险公司理赔
#项目组简报
#agent
#机械重复工作
分享
评论 0
0
宝玉
2个月前
Agent 的好文章,强烈推荐阅读👍 要说对 Agent 的理解,Manus 团队无疑是业界顶尖的,每次他们的分享都能有所收获,作者作为前 Manus 团队成员,对 Agent 的经验是丰富的,最难得的是能把概念解释的深入浅出通俗易懂。 OpenAI 提出了一个五级人工智能分级标准来衡量其通用人工智能(AGI)的进展:第一级是“ChatBot(聊天机器人)”,能够进行对话;第二级是“Reasoners(推理者)”,可以解决人类水平的问题;第三级是“Agent(智能体)”,能够代表用户采取行动;第四级是“创新者(Innovators)”,可以帮助发明创造;第五级是“组织者(Organizations)”,能够完成组织管理工作。 AI 现在现在已经发展到了第 3 级 Agent,但很多人还搞不清楚它和第 1 级 ChatBot 的差别,这就是一篇很好的科普让你搞清楚它的差别。 Chatbot: - 一次性输出 - 只能依赖自身知识库 Reasoners: - 先思考再输出 Agent: - 动态循环过程,Think → Act → Observe,先制定明确计划(Think),再查询实时信息(Act),最后基于真实结果调整方案(Observe),通过持续反馈和修正,稳定逼近目标。 - 使用工具,与真实世界互动,弥补自己知识库的不足,主动补齐上下文 原文较长,推荐仔细看看,链接在原推2楼
#agent
#Manus团队
#OpenAI
#人工智能分级
#ChatBot
分享
评论 0
0
Y11
2个月前
我们常听到“Workflow是确定的,Agent是灵活的”这样的说法,但实际应用中,这两种工具的表现或许与想象有所不同。 先看Workflow。 那些真正在使用Workflow的人,他们搭建的流程往往处于动态调整中。 比如,某个节点频繁报错,就需要添加异常处理;发现特定时间段发布的内容阅读量低,便会调整定时器。可见,Workflow的“确定性”并非一成不变,而是在实践中不断优化的过程。 再看被称为“智能”的Agent。 仔细观察会发现,它们的行为模式其实相当固定。以OpenAI的GPT为例,当你十次询问“帮我写个小红书标题”时,它给出的答案往往套路相似:疑问句开头、添加emoji、包含数字。 这种“智能”更多体现在标准化输出上,灵活性反而有限。 谈及代码,很多人认为只有会写代码的人才能用好这些工具,但事实并非如此。 不少零代码基础的博主,借助社区丰富的模板,能熟练搭建n8n workflow。他们的优势在于对业务的深刻理解:知道早上七点该发什么内容,晚上十点的发布策略,以及如何通过数据(如低于某个阅读量即被限流)判断平台规则。这种业务认知,远比技术能力更重要。 相反,一些程序员搭建的营销自动化系统,技术层面无可挑剔,节点设计优雅,异常处理完善,却难以实现涨粉目标。 因为他们不懂用户心理——不知道小红书用户在睡前刷手机时真正关注什么。这并非技术不足,而是缺乏对行业的洞察。 Workflow的真正门槛,其实不在于代码,而在于两点: 一是工具的信息差,比如如何找到自动获取对标账号内容、视频转字幕、分析数据的工具,如何让自动化发布适应平台规则; 二是行业know-how,如寻找对标账号、设计爆款逻辑、设置定时任务、优化内容生成prompt等。这好比八九十年代的商业竞争,真正的壁垒不在于产品本身,而在于对资源、渠道、规则的熟悉度。 技术越强大,越依赖人的经验。因此,Workflow、Agent、代码并非简单以“需求复杂度”划分应用场景。Workflow适合解决“知道怎么做,只是嫌麻烦”的提效问题;Agent则适合处理“不知道怎么做”的赋能需求。 以内容营销为例,发布流程是Workflow问题,判断“什么内容会火”是Agent问题,但最难的“平台潜规则”却需要人的Domain Knowledge(领域知识)。许多人期待一个“发布+爆款预测+规则解读+商业分析”一体化的Agent,却忽略
#Workflow
#agent
#内容营销
#领域知识
#平台规则
分享
评论 0
0
赵纯想
2个月前
当我完成这个Agent,看着它进入工作循环,我忽然感受到一种生命力。这很中二。但是,一个全自动、可以长时间运行的东西,和过往做的那些响应式的东西,带给我的感觉完全不同。我觉得人必须得有这样一次造物主的经历,比打炮爽20倍左右。
#agent
#全自动
#造物主
#生命力
#积极
分享
评论 0
0
宝玉
2个月前
如果你需要一个像 Claude Code 一样强大并且马上就能用的 Agent,那么 Claude Agent SDK 是最佳选择,担心成本可以接国产模型,它已经内置 Claude Code 的所有工具,可以自己额外开发工具或者接 MCP 如果你需要精细控制,AI SDK 最好,但你需要自己写所有工具 其他不做推荐主要是我不了解
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude Agent SDK
#国产模型
#AI SDK
#MCP
#agent
分享
评论 0
0
九原客
2个月前
如果对 DeepResearch 这类复杂的 Agent 感兴趣,我建议学一下LangGraph的免费课程 Deep Research with LangGraph。 课程比较循序渐进,先做一个单Agent系统,然后进化为多 Agent。 最主要是架构简单,外部依赖非常少,一个大模型一个搜索API就完了。
谷歌Deep Research:AI操作系统雏形?· 145 条信息
#DeepResearch
#LangGraph
#agent
#大模型
#搜索API
分享
评论 0
0
Y11
2个月前
半年前,有位网友整理了一堆MCP工具资料,搭了个网站分享出去。 初期他还手动维护,后来工具更新太快,一个人忙不过来,便写了个小程序——我们叫它“Agent”吧,让它自动去GitHub上搜集最新工具,分类整理后直接更新到网页上。 之后他就没再管这个站了,忙着别的事,一晃半年过去。 前几天他偶尔想起,随手在谷歌搜了一下,结果愣住了:自己早忘了的网站,赫然排在搜索结果第一。 更意外的是,这个站从没想过要做什么“SEO”,全靠那个“笨笨的”Agent,日复一日、规律地重复着最初的任务,自己都没察觉,它已经默默攒下了足够的“存在感”。 这个故事让我忽然明白:我们总觉得AI要多“聪明”才行,但这个案例里,最简单的“持续”,AI反而比人做得更稳。 人啊,总爱给自己找理由:“今天太累了,明天再说”“这个方向好像没希望,算了吧”。 可AI不会,它的节奏稳定得像钟表,你给它一个目标,它就一条道走到黑。 就像那个Agent,你忘了它的时候,它还在那里啃资料、更新网页,没停过。 现在的AI工具,比如Claude Code、Trae Solo,其实也在做类似的事。 你给它一个任务,它会像个踏实的伙伴,一步一步推着你往前走,哪怕你中途想放弃,它还在默默“咕哒咕哒”地推进,直到把事做完。 这或许就是我们最需要的AI——我们负责“想”和“看”,它负责“做”和“守”。 探索未知的路是我们的事,而那些需要坚持、需要重复、需要积累的“笨功夫”,交给AI来做。 不用追求完美的“聪明”,能把一件事“持续做下去”,本身就是一种了不起的能力。 而AI,恰好是那个能帮我们把“初心”守到最后的人。这大概就是人与AI最好的共生状态吧:你引领方向,它坚定前行。
#AI工具
#持续性
#人与AI共生
#agent
#自动化
分享
评论 0
0
宝玉
2个月前
我个人是不喜欢用 spec-kit,不是好的上下文工程: - 小项目没必要 - 大项目描述不清楚 - 一大坨文档反而占用上下文影响生成 - 文档不保持及时更新反而会误导 Agent 好的上下文管理是针对当前上下文引导 Agent 找到合适的刚刚好的上下文,而不是不管三七二十一塞给它十几个文档!
#spec-kit
#上下文工程
#agent
#上下文管理
#文档更新
分享
评论 0
0
Meathill
2个月前
直到自己花钱订阅 GitHub copilot,我才想方设法让自己的 $100/y 花得值。准备下一阶段要按照自己 code review的能力上限用 Agent 帮我写代码,想来想去,Tutolang(视频创作小语言)可能是最合适的,希望年底前能做出来,试试看吧。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#GitHub Copilot
#agent
#Tutolang
#代码生成
#编程工具
分享
评论 0
0
Barret李靖
2个月前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
#AI
#tdd
#agent
#Benchmark
#智能体
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞