时政
财经
科技
虚拟货币
其他
登录
#agent
关注
Michael Anti
10小时前
Claude Code真的是掀起了Agent的新风潮,而且和国产AI配合,效果真的不错。同样的选题指令,用CC+Kimi-for-coding的效果,竟然比Gemini Deep Research好。
Claude Skills系统发布引发AI行业新变革· 47 条信息
#Claude Code
#agent
#Kimi-for-coding
#Gemini Deep Research
#AI
分享
评论 0
0
向阳乔木
1周前
计划月底去深圳,给一个芯片公司做AI发展现状分享。 准备资料时,搜到拾象对2025 AGI主线思考的PDF。 短短半年过去,很多已经成了共识,预判很准。 Scridb网站付费下载过来,需要的评论发大家。 列几条: 1. 以“任务长度”作为衡量 AI Agent 能力标准,Agent 能力每 7 个月能力翻一倍。 2. 垂直 Agent 是今年硅谷最热创业主题之一:50+YC W25的项目和Speedrun 30% 的项目都在做垂直 agent。 agent 主要落地在直接产生收入的场景,如营销、销售、客服等。 3. 从 ChatGPT 发布以来,二级市场科技公司的涨幅一直主要由AI 驱动,投AI 才是投科技。 最大非共识: Pre-training 决定一切(预训练决定模型能力上限) RL+post-training 是对模型潜力的最大化发掘,但不会涌现新能力。
#深圳
#芯片公司
#AI发展
#AGI
#agent
分享
评论 0
0
Limbo
1周前
使用Warp 建议关掉 Natural language detection. 否则输入一个 ls 它都能给你跑 Agent 消耗几个credits.
#Warp
#Natural language detection
#agent
#credits
分享
评论 0
0
宝玉
2周前
我现在是 Agent 信徒 + 手搓,Tab 反而最少 1. 先用 Agent 快速实现完整功能,不必在意质量,但核心是完整实现需求,走通各个流程,了解各种边界条件 2. 然后基于需求和完整的流程,重新思考设计架构,再手搓+Agent 这样既可以兼顾速度,又可以保证质量
#agent
#手搓
#效率
#架构设计
#软件开发
分享
评论 0
0
howie.serious
3周前
跑在 chatgpt atlas 里的那个 agent,谁有什么真实可用的、有价值的 use case 吗? browser agent 这个类别,和 claude code 类 文件系统 agent 比起来,实用性还是差很多啊。 目前 browser agent 的实用价值,主要被 llm 操作计算机的能力被限制住了。期待模型能力能持续发展,就像视频生成模型这一年里的突飞猛进那样(具体的例子,就是威尔史密斯吃意大利面)。
#ChatGPT
#agent
#Browser Agent
#LLM
#模型能力
分享
评论 0
0
Dawei Ma
3周前
试了下 ChatGPT 新出的浏览器 Atlas,虽然有智慧但不多,我让它操作:打开策引 A 股 2 号和另外一个组合对比表现,花了 近 7 分钟,远不及预期,但是蹒跚学步,这个开始还是具有历史性的,理想中的 Agent 能利用人类账户干一些重复性的体力活,而浏览器是个非常好的切入口,继续关注吧
#ChatGPT
#Atlas浏览器
#A股
#agent
#效率待提高
分享
评论 0
0
Soulogic
3周前
突然想起我的第二份工作,03 年,我在做一个汽车配件查询网站,打算是给保险公司用的,这样理赔价格就透明了。可想而知都不用理赔员抗议,他们的头头就给拦下来了 最近想用 agent 做一些项目组简报什么的,每周各个组都要做各种简报给领导看,其实这事很机械,浪费了大量的人力 但估计会有类似的压力
#汽车配件查询网站
#保险公司理赔
#项目组简报
#agent
#机械重复工作
分享
评论 0
0
宝玉
3周前
Agent 的好文章,强烈推荐阅读👍 要说对 Agent 的理解,Manus 团队无疑是业界顶尖的,每次他们的分享都能有所收获,作者作为前 Manus 团队成员,对 Agent 的经验是丰富的,最难得的是能把概念解释的深入浅出通俗易懂。 OpenAI 提出了一个五级人工智能分级标准来衡量其通用人工智能(AGI)的进展:第一级是“ChatBot(聊天机器人)”,能够进行对话;第二级是“Reasoners(推理者)”,可以解决人类水平的问题;第三级是“Agent(智能体)”,能够代表用户采取行动;第四级是“创新者(Innovators)”,可以帮助发明创造;第五级是“组织者(Organizations)”,能够完成组织管理工作。 AI 现在现在已经发展到了第 3 级 Agent,但很多人还搞不清楚它和第 1 级 ChatBot 的差别,这就是一篇很好的科普让你搞清楚它的差别。 Chatbot: - 一次性输出 - 只能依赖自身知识库 Reasoners: - 先思考再输出 Agent: - 动态循环过程,Think → Act → Observe,先制定明确计划(Think),再查询实时信息(Act),最后基于真实结果调整方案(Observe),通过持续反馈和修正,稳定逼近目标。 - 使用工具,与真实世界互动,弥补自己知识库的不足,主动补齐上下文 原文较长,推荐仔细看看,链接在原推2楼
#agent
#Manus团队
#OpenAI
#人工智能分级
#ChatBot
分享
评论 0
0
Y11
4周前
我们常听到“Workflow是确定的,Agent是灵活的”这样的说法,但实际应用中,这两种工具的表现或许与想象有所不同。 先看Workflow。 那些真正在使用Workflow的人,他们搭建的流程往往处于动态调整中。 比如,某个节点频繁报错,就需要添加异常处理;发现特定时间段发布的内容阅读量低,便会调整定时器。可见,Workflow的“确定性”并非一成不变,而是在实践中不断优化的过程。 再看被称为“智能”的Agent。 仔细观察会发现,它们的行为模式其实相当固定。以OpenAI的GPT为例,当你十次询问“帮我写个小红书标题”时,它给出的答案往往套路相似:疑问句开头、添加emoji、包含数字。 这种“智能”更多体现在标准化输出上,灵活性反而有限。 谈及代码,很多人认为只有会写代码的人才能用好这些工具,但事实并非如此。 不少零代码基础的博主,借助社区丰富的模板,能熟练搭建n8n workflow。他们的优势在于对业务的深刻理解:知道早上七点该发什么内容,晚上十点的发布策略,以及如何通过数据(如低于某个阅读量即被限流)判断平台规则。这种业务认知,远比技术能力更重要。 相反,一些程序员搭建的营销自动化系统,技术层面无可挑剔,节点设计优雅,异常处理完善,却难以实现涨粉目标。 因为他们不懂用户心理——不知道小红书用户在睡前刷手机时真正关注什么。这并非技术不足,而是缺乏对行业的洞察。 Workflow的真正门槛,其实不在于代码,而在于两点: 一是工具的信息差,比如如何找到自动获取对标账号内容、视频转字幕、分析数据的工具,如何让自动化发布适应平台规则; 二是行业know-how,如寻找对标账号、设计爆款逻辑、设置定时任务、优化内容生成prompt等。这好比八九十年代的商业竞争,真正的壁垒不在于产品本身,而在于对资源、渠道、规则的熟悉度。 技术越强大,越依赖人的经验。因此,Workflow、Agent、代码并非简单以“需求复杂度”划分应用场景。Workflow适合解决“知道怎么做,只是嫌麻烦”的提效问题;Agent则适合处理“不知道怎么做”的赋能需求。 以内容营销为例,发布流程是Workflow问题,判断“什么内容会火”是Agent问题,但最难的“平台潜规则”却需要人的Domain Knowledge(领域知识)。许多人期待一个“发布+爆款预测+规则解读+商业分析”一体化的Agent,却忽略
#Workflow
#agent
#内容营销
#领域知识
#平台规则
分享
评论 0
0
赵纯想
1个月前
当我完成这个Agent,看着它进入工作循环,我忽然感受到一种生命力。这很中二。但是,一个全自动、可以长时间运行的东西,和过往做的那些响应式的东西,带给我的感觉完全不同。我觉得人必须得有这样一次造物主的经历,比打炮爽20倍左右。
#agent
#全自动
#造物主
#生命力
#积极
分享
评论 0
0
宝玉
1个月前
如果你需要一个像 Claude Code 一样强大并且马上就能用的 Agent,那么 Claude Agent SDK 是最佳选择,担心成本可以接国产模型,它已经内置 Claude Code 的所有工具,可以自己额外开发工具或者接 MCP 如果你需要精细控制,AI SDK 最好,但你需要自己写所有工具 其他不做推荐主要是我不了解
AI编程工具激战:Claude Code、Gemini Cli崛起· 1151 条信息
#Claude Agent SDK
#国产模型
#AI SDK
#MCP
#agent
分享
评论 0
0
九原客
1个月前
如果对 DeepResearch 这类复杂的 Agent 感兴趣,我建议学一下LangGraph的免费课程 Deep Research with LangGraph。 课程比较循序渐进,先做一个单Agent系统,然后进化为多 Agent。 最主要是架构简单,外部依赖非常少,一个大模型一个搜索API就完了。
谷歌Deep Research:AI操作系统雏形?· 122 条信息
#DeepResearch
#LangGraph
#agent
#大模型
#搜索API
分享
评论 0
0
Y11
1个月前
半年前,有位网友整理了一堆MCP工具资料,搭了个网站分享出去。 初期他还手动维护,后来工具更新太快,一个人忙不过来,便写了个小程序——我们叫它“Agent”吧,让它自动去GitHub上搜集最新工具,分类整理后直接更新到网页上。 之后他就没再管这个站了,忙着别的事,一晃半年过去。 前几天他偶尔想起,随手在谷歌搜了一下,结果愣住了:自己早忘了的网站,赫然排在搜索结果第一。 更意外的是,这个站从没想过要做什么“SEO”,全靠那个“笨笨的”Agent,日复一日、规律地重复着最初的任务,自己都没察觉,它已经默默攒下了足够的“存在感”。 这个故事让我忽然明白:我们总觉得AI要多“聪明”才行,但这个案例里,最简单的“持续”,AI反而比人做得更稳。 人啊,总爱给自己找理由:“今天太累了,明天再说”“这个方向好像没希望,算了吧”。 可AI不会,它的节奏稳定得像钟表,你给它一个目标,它就一条道走到黑。 就像那个Agent,你忘了它的时候,它还在那里啃资料、更新网页,没停过。 现在的AI工具,比如Claude Code、Trae Solo,其实也在做类似的事。 你给它一个任务,它会像个踏实的伙伴,一步一步推着你往前走,哪怕你中途想放弃,它还在默默“咕哒咕哒”地推进,直到把事做完。 这或许就是我们最需要的AI——我们负责“想”和“看”,它负责“做”和“守”。 探索未知的路是我们的事,而那些需要坚持、需要重复、需要积累的“笨功夫”,交给AI来做。 不用追求完美的“聪明”,能把一件事“持续做下去”,本身就是一种了不起的能力。 而AI,恰好是那个能帮我们把“初心”守到最后的人。这大概就是人与AI最好的共生状态吧:你引领方向,它坚定前行。
#AI工具
#持续性
#人与AI共生
#agent
#自动化
分享
评论 0
0
宝玉
1个月前
我个人是不喜欢用 spec-kit,不是好的上下文工程: - 小项目没必要 - 大项目描述不清楚 - 一大坨文档反而占用上下文影响生成 - 文档不保持及时更新反而会误导 Agent 好的上下文管理是针对当前上下文引导 Agent 找到合适的刚刚好的上下文,而不是不管三七二十一塞给它十几个文档!
#spec-kit
#上下文工程
#agent
#上下文管理
#文档更新
分享
评论 0
0
Meathill
1个月前
直到自己花钱订阅 GitHub copilot,我才想方设法让自己的 $100/y 花得值。准备下一阶段要按照自己 code review的能力上限用 Agent 帮我写代码,想来想去,Tutolang(视频创作小语言)可能是最合适的,希望年底前能做出来,试试看吧。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1151 条信息
#GitHub Copilot
#agent
#Tutolang
#代码生成
#编程工具
分享
评论 0
0
Barret李靖
1个月前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。
#AI
#tdd
#agent
#Benchmark
#智能体
分享
评论 0
0
Y11
1个月前
这些做了25年RPA业务的公司,为什么突然都在抢着融资? 今年年初看到Deepseek和Manus的消息后,整个投资圈的情绪就被点燃了。 市场热度一下子上来,所以到了2025年,大家都想尽可能多融点钱。 反正公司也就十来人的小团队,每年开销也没那么大,钱放账上闲着也没关系。 只要能撑过两年,扛过这个周期,就算最惨的情况,也能被大公司收购。 但谁也不知道,明年这个环境会不会突然变糟。尤其是像Manus这样的头部玩家如果悄无声息地退出,市场肯定会立刻陷入恐慌。 做了这么多年RPA业务,他们真的做出什么实实在在的成果了吗?为什么看起来都像些玩具? 很多做Agent的创业团队,可能连最基本的标准化评估机制都没有。 连效果都验证不了,奖励机制就更别提了。 很多时候,稍微改改提示词,反而会让结果更差。大家给反馈全凭感觉,根本没有章法。 到底什么时候才能真正把这件事量化清楚? 大概就是当看到Agent能像律师收费那样,根据实际效果来定价,而不是只告诉你用了多少tokens,不管结果如何的时候吧。
#RPA
#融资
#市场恐慌
#agent
#标准化评估
分享
评论 0
0
Yangyi
1个月前
怎么做第一个Agent? 不是去看视频学什么N8N 也不是跑去学代码搞Langchain 最快的方法就是干 直接问Claude,和它对话做就是了 做完了发现问题,人工再调整策略,这个Agent慢慢就会好 比如我试着让Agent做嗅探,帮我找X上分享内容营销和增长比较好的英文账号,看他们的内容 上来我让LLM自己出词,但后来发现策略不太对 这东西就是干几轮慢慢提示词就好了 所谓ReACT,核心是ACT,得先干,再重复,就会迭代 动手干起来吧,别问怎么学,直接去问AI是最好的
#多智能体之争:Anthropic生态VS单智能体· 77 条信息
#agent
#Claude
#内容营销
#增长
#React
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
一个LLM知道“什么是火”,但一个“有状态”的Agent应该“记得自己上次被烫伤的经历”。
#多智能体之争:Anthropic生态VS单智能体· 77 条信息
#LLM
#agent
#有状态
#烫伤经历
#记忆
分享
评论 0
0
xxchan
1个月前
Context7 是个少数比较有用的 MCP tool 之一,他能搜索你用的库的文档。 但这两天 X 上有人提到一些新的 MCP 文档搜索工具,说比 Context7 好。 那么问题来了,我怎么知道到底哪个好呢? 其实可以让 agent 自己比
AI编程工具激战:Claude Code、Gemini Cli崛起· 1151 条信息
#MCP工具
#Context7
#文档搜索
#工具对比
#agent
分享
评论 0
0
orange.ai
1个月前
Claude Code 是真正意义上的全链路开发 Agent,从写代码到测试到发布 Github,全部自己完成。 第一次用 Claude Code 写完软件发布到 Github 的时候,我还在用 Github 的客户端,各种报错。 第二次用的时候,我装了一堆Agents,直接在CC里让 Agent 来提交了,遇到错误它会自己解决。 太智能了。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1151 条信息
#Claude Code
#全链路开发
#agent
#GitHub
#自动化
分享
评论 0
0
Ningcong Chen
1个月前
今天用dspy + coqpyt编了个agent,自动证明了我懒得写的一个leetcode的定理。虽然不知道这玩意稳定性如何。 总之就是让Coq的报错喂给AI,然后AI会发现自己的递归没写对,反复试了几次以后就过了。 Coqpyt重新糊了一套界面,不然原来都不报错,模型直接抓瞎。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1151 条信息
#DSPy
#coqpyt
#agent
#LeetCode
#定理证明
分享
评论 0
0
orange.ai
1个月前
作为一个不会写代码的产品,我做了第一个 Mac App 🎉 Claude Code Now —— 在系统的任何文件夹,一键点击,CC启动! 设计理念: Claude Code 并非只是一个开发工具,而是一个广泛的通用型 Agent。 它可以帮你分析文件、移动文件、整理文件。 它可以基于你的 Obsidian 数据库进行分析、总结、提取洞察。 但是启动 Claude Code 的过程还是太繁琐了,终端、cd、确认权限。 我们的目标就是一键启动,丝滑享受,跳过输入和确认。 于是我做了这款极简的 Claude Code 一键启动器,专为 macOS 设计,可以在任何文件夹快速启动 Claude Code。 它用起来,甚至比 ChatWise 更方便,因为不需要把文件拖动进去啦。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1151 条信息
#Claude Code
#mac app
#一键启动器
#极简设计
#agent
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
如果把agent也看成是一种交互,而语言本身就是人的社会外在的交互媒介,那一切就豁然了
#多智能体之争:Anthropic生态VS单智能体· 77 条信息
#agent
#交互
#语言
#社会
#媒介
分享
评论 0
0
赵纯想
1个月前
无论是否是专业电影人,我相信,每个人脑海中都有那样一个故事。那么,借助Agent的综合能力,通过多轮对话,将你的故事变成好莱坞级别的节拍严谨的剧本初稿。如何?内测点点赞,择日拉群。相比于图4,图3是一个UI升级版本,辱骂了一天才能登峰造极。辱骂的是哪个模型我不敢说。
#电影剧本
#agent
#好莱坞
#UI升级
#模型
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞