#agent

宝玉
3周前
Y11
4周前
我们常听到“Workflow是确定的,Agent是灵活的”这样的说法,但实际应用中,这两种工具的表现或许与想象有所不同。 先看Workflow。 那些真正在使用Workflow的人,他们搭建的流程往往处于动态调整中。 比如,某个节点频繁报错,就需要添加异常处理;发现特定时间段发布的内容阅读量低,便会调整定时器。可见,Workflow的“确定性”并非一成不变,而是在实践中不断优化的过程。 再看被称为“智能”的Agent。 仔细观察会发现,它们的行为模式其实相当固定。以OpenAI的GPT为例,当你十次询问“帮我写个小红书标题”时,它给出的答案往往套路相似:疑问句开头、添加emoji、包含数字。 这种“智能”更多体现在标准化输出上,灵活性反而有限。 谈及代码,很多人认为只有会写代码的人才能用好这些工具,但事实并非如此。 不少零代码基础的博主,借助社区丰富的模板,能熟练搭建n8n workflow。他们的优势在于对业务的深刻理解:知道早上七点该发什么内容,晚上十点的发布策略,以及如何通过数据(如低于某个阅读量即被限流)判断平台规则。这种业务认知,远比技术能力更重要。 相反,一些程序员搭建的营销自动化系统,技术层面无可挑剔,节点设计优雅,异常处理完善,却难以实现涨粉目标。 因为他们不懂用户心理——不知道小红书用户在睡前刷手机时真正关注什么。这并非技术不足,而是缺乏对行业的洞察。 Workflow的真正门槛,其实不在于代码,而在于两点: 一是工具的信息差,比如如何找到自动获取对标账号内容、视频转字幕、分析数据的工具,如何让自动化发布适应平台规则; 二是行业know-how,如寻找对标账号、设计爆款逻辑、设置定时任务、优化内容生成prompt等。这好比八九十年代的商业竞争,真正的壁垒不在于产品本身,而在于对资源、渠道、规则的熟悉度。 技术越强大,越依赖人的经验。因此,Workflow、Agent、代码并非简单以“需求复杂度”划分应用场景。Workflow适合解决“知道怎么做,只是嫌麻烦”的提效问题;Agent则适合处理“不知道怎么做”的赋能需求。 以内容营销为例,发布流程是Workflow问题,判断“什么内容会火”是Agent问题,但最难的“平台潜规则”却需要人的Domain Knowledge(领域知识)。许多人期待一个“发布+爆款预测+规则解读+商业分析”一体化的Agent,却忽略
Y11
1个月前
半年前,有位网友整理了一堆MCP工具资料,搭了个网站分享出去。 初期他还手动维护,后来工具更新太快,一个人忙不过来,便写了个小程序——我们叫它“Agent”吧,让它自动去GitHub上搜集最新工具,分类整理后直接更新到网页上。 之后他就没再管这个站了,忙着别的事,一晃半年过去。 前几天他偶尔想起,随手在谷歌搜了一下,结果愣住了:自己早忘了的网站,赫然排在搜索结果第一。 更意外的是,这个站从没想过要做什么“SEO”,全靠那个“笨笨的”Agent,日复一日、规律地重复着最初的任务,自己都没察觉,它已经默默攒下了足够的“存在感”。 这个故事让我忽然明白:我们总觉得AI要多“聪明”才行,但这个案例里,最简单的“持续”,AI反而比人做得更稳。 人啊,总爱给自己找理由:“今天太累了,明天再说”“这个方向好像没希望,算了吧”。 可AI不会,它的节奏稳定得像钟表,你给它一个目标,它就一条道走到黑。 就像那个Agent,你忘了它的时候,它还在那里啃资料、更新网页,没停过。 现在的AI工具,比如Claude Code、Trae Solo,其实也在做类似的事。 你给它一个任务,它会像个踏实的伙伴,一步一步推着你往前走,哪怕你中途想放弃,它还在默默“咕哒咕哒”地推进,直到把事做完。 这或许就是我们最需要的AI——我们负责“想”和“看”,它负责“做”和“守”。 探索未知的路是我们的事,而那些需要坚持、需要重复、需要积累的“笨功夫”,交给AI来做。 不用追求完美的“聪明”,能把一件事“持续做下去”,本身就是一种了不起的能力。 而AI,恰好是那个能帮我们把“初心”守到最后的人。这大概就是人与AI最好的共生状态吧:你引领方向,它坚定前行。
Barret李靖
1个月前
软件开发里有一种叫 TDD(Test-Driven Development)的方式,简单讲,就是先写好测试用例,然后再写程序。每写一部分代码就立刻跑对应的测试,看能不能通过。能通过说明实现符合预期,不通过就说明有 bug。TDD 的好处在于,它让整个研发过程可验证、可回归,也让开发变成一种持续的反馈循环。 AI 的发展其实也像是在做一场巨大的 TDD,只不过测试用例变成了数据集(Dataset)。每一次模型迭代,本质上就是在跑新的单测(Benchmark)。MMLU 测知识广度,GSM8K 测逻辑推理,HumanEval 测编程能力,AIME 和 MATH 则测严谨的数学推理。每个 leaderboard 都是一张 AI 世界的成绩单——DeepSeek 在数学推理上用 GSM8K 打出好成绩,Manus 则靠打榜多模态任务的数据集 GAIA 崭露头角。这些 Benchmark 像是模型进化的里程碑,每一代 AI 都得交卷。 2025 可以说是智能体(Agent)元年,模型不再只靠会算、会说来评估,而是要能动手。要让一个 Agent 真正好用,光靠写 Prompt、加检索、拼上下文是不够的,它得能使用工具,能执行 Python、Shell、SQL,能感知状态、理解任务依赖,更要能在反馈中调整自己的行为。评估 Agent 好不好用,也就不能只看单轮问答,而得看它能否完成一件真实的工作。 Anthropic 做的 SWE-bench 就是个典型例子,让 Agent 去修真实项目里的 Bug,看能否通过单测。OpenAI 的 MLE-bench 则更进一步,考察 Agent 在机器学习工程中的执行力,从读数据、清洗、编程、训练,到收集指标、分析再改进,形成一个完整的闭环。社区里还在探索更复杂的测试,比如 App-bench,看 Agent 是否能独立开发一个 Web 应用,从前端到后端再到部署上线;或者 Ops-bench,让它去处理运维任务,比如容器编排、日志分析、系统回滚。这些都在考验 Agent 的真实工程执行力。 AI 的进步,正在从“能思考”走向“能执行”。TDD 让软件工程可验证,而在 AI 世界,Dataset 和 Benchmark 是创新的发动机。Dataset 定义了模型学习的方向,Benchmark 则刻画了行业标准与竞争格局。 未来的竞争,不再是谁的模型更聪明,而是谁的智能体更能干活。真正厉害的 AI,不一定语义最深、参数最多,而是那个能自己规划、自己验证、自己改进的 Agent。换句话说,AI 的未来不只是更聪明的脑子,而是更靠谱的手和脚,能想、能做、还能自己查错修正,这才是“用得上”的智能。