时政
财经
科技
虚拟货币
其他
登录
#LLM
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4小时前
LLM的抽象与人类抽象是“形似而神不同”: 它们在功能上(如分类、类比)表现出相似性,但其内在的机理和属性(统计 vs. 符号,相关 vs. 因果)有着根本性的不同。 这正是马毅教授所说的“subtle difference”。
#LLM
#抽象
#人类
#形似神不同
#subtle difference
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
12小时前
有网友问,开发agent用什么框架?推上大神看看我回答的有没有问题: “真手搓还是langchain吧,用的人多,各大厂的ADK也是个好选择,毕竟LLM的agentic能力越来越强;工作流类的用n8n/dify/coze这些。mvp我都想直接用claude code就干起来了。”
AI编程工具激战:Claude Code、Gemini Cli崛起· 492 条信息
#Agent框架
#LangChain
#LLM
#n8n/dify/coze
#Claude Code
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1天前
一边是用LLM来vibe sort; 一边是清华大学新the Dijkstra 算法突破! 我又想起了vibe writing;vibe coding;… 然后就是刚写的《最后一个词》三部曲 (The Last Word Trilogy)
#LLM
#清华大学
#Dijkstra算法
#技术突破
#vibe
分享
评论 0
0
lencx
1天前
我之前就写过一篇《深度理解:提示词工程》,自认为已经覆盖到了绝大多数 Prompt 场景。今天又尝试让 GPT-5 Thinking 站在非常规角度来聊聊 Prompt。内容大部分都是老生常谈的东西,不过也有些小亮点,整体读下来感觉不错,就整理成此文。 👉 LLM 高效沟通指南:
#提示词工程
#GPT-5 thinking
#LLM
#高效沟通
#非常规角度
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2天前
越是LLM时代,语言越是要嵌入生活,追求“活人感”😄
#LLM
#生活
#活人感
#语言
#积极
分享
评论 0
0
paco xu
3天前
浅谈基于 Kubernetes 的 LLM 分布式推理框架架构:概览 (MoMo 和鲸) 好文推荐
#Kubernetes
#LLM
#分布式推理
#框架架构
#MoMo和鲸
分享
评论 0
0
Y11
5天前
这篇论文有点意思, 主题是《如何使用LLM模仿人类级别的诈骗电话》。 传送门:
#LLM
#诈骗电话
#人工智能
#论文
#负面
分享
评论 0
0
Rainman
6天前
感觉AI(LLM)是让我这种小人得志的工具,非常强的放大了我。
#AI浪潮:重塑就业,风险暗涌?· 85 条信息
#AI
#LLM
#小人得志
#工具
#放大
分享
评论 0
0
howie.serious
1周前
一道基础的逻辑推理题:各家llm基本都会(包括非推理模式下的gpt-5)(很意外的是gemini 2.5 pro答不对),适合用来考察人类推理能力。 网上的版本条件不充分,我补充了条件4和5,答案就唯一了:工程师——医生——律师。 很适合和家里的小孩子一起玩。 === 逻辑推理练习题: 有三位朋友——阿尔法、贝塔和伽马,他们的职业分别是医生、律师和工程师,但顺序未知。已知以下信息: 1.阿尔法不喜欢医生。 2. 贝塔是伽马的姐姐。 3. 医生曾在法庭上为工程师作证。 4. 亲属不能在法庭上互相作证。 5. 律师不是女性。 请确定每个人的职业。
#逻辑推理
#职业
#家庭
#LLM
#智力题
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
这些发现表明,LLM不是有原则的推理者,而是类似推理文本的复杂模拟器。
#LLM
#推理
#模拟器
#AI
#中性
分享
评论 0
0
yv | AS8075 | N6YVB
1周前
最近在写一个OpenRouter的开源增强版,叫LMRouter,会支持所有LLM/图片/视频/音频/embedding模型,提供统一的OpenAI/Anthropic/Responses API接口。 虽然还在开发中,但我架了个demo服务器,无需配置一条命令就能把Claude Code接入任何模型(例如GPT 5/Qwen3)。来试试看!
#Openrouter
#LMRouter
#开源
#LLM
#API
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
[2508.03012] Tool-integrated Reinforcement Learning for Repo Deep Search 这个和前面那个mcp rl有一拼,增强LLM的tools using能力
#LLM
#强化学习
#工具
#深度搜索
#AI
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
LLM驱动的agent,要是GPT-5遥遥领先,那基于GPT-5的通用agent又要卷死一波agent应用产品?
#多智能体之争:Anthropic生态VS单智能体· 17 条信息
#LLM
#GPT-5
#agent
#通用Agent
#应用产品
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
就现有的的LLM,agent也大有可为啊
#LLM
#agent
#AI
分享
评论 0
0
Tony出海
1周前
奥特曼太鸡贼了,用一个simple-bench排名为34位(LLM基本常识和推理能力测试排名),比grok 2还低。 成功抢了世界的眼球,掩盖了Google发布的Genie 3世界模型。 我剪辑了精彩Genie 3视频合集。两个字,震撼
#奥特曼
#Genie 3
#LLM
#排名
#世界模型
分享
评论 0
0
歸藏(guizang.ai)
1周前
昨晚 Open AI 居然发布的是开源模型就是前几天泄露的 gpt-oss-120b 和 gpt-oss-20b Gpt-oss-120b 大致相当于 OpenAI o4-mini,20B 的相当于 o3-mini 120B 需要 80G 显存推理,20B 只需要 16G 显存设备。 目前你知道的所有 LLM 周边生态都已经支持这两个模型,比如 ollama 这种
#OpenAI
#开源模型
#gpt-oss
#LLM
#Ollama
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
Vibe Coding与数字复制子的自举机制 Vibe Coding(又称 vibecoding)是一种新兴的开发模式: 通过自然语言提示驱动LLM自动生成并迭代代码 。 正如定义所述,“你描述想要做什么 → AI把代码全写好 → 人只做测试与微调” 。IBM将其称为“从意图(intent)直接到可执行代码”的新世代软件生产模式 。 Vibe Coding消灭了代码开发中自然语言与形式语言的隔阂: 人类不再需要编写严谨的语法或算法步骤,只需用模糊的语义描述需求,AI便自动把这些意图“翻译”成精确可运行的程序。 这在技术上构建了一种自举机制:人类意图(自然语言形式的信息复制子)不断喂给AI,AI则生成结构化的程序(另一类复制子),两者通过反馈共同进化软件系统。 与早期“低代码/无代码”仅限于图形拖拽不同,Vibe Coding让“对话”成为唯一的接口 。这种模式下,AI扮演了超高速的代码复制者——它可以基于一个提示复制出千行代码,而开发者再利用版本控制、测试等形式对其进行选择性保留或修正。 可以说,Vibe Coding是自然语言复制子向计算机代码复制子的桥梁与催化剂: 它利用大语言模型的语言拟态能力,将模糊的人类意图映射到精确的形式语言结构中,形成新的数字复制循环。
#Vibe Coding
#自然语言编程
#LLM
#自举机制
#AI代码生成
分享
评论 0
0
howie.serious
1周前
【LLM更佳实践?】今天开始,养成一个习惯: - 把三大 llm 摆在一个窗口, 固定住,这个窗口只用于 ai 对话; - 同一个问题,让3大 llm 同时回答(根据目前经验,差异还挺显著的); 这个使用方法,基本可以总结为:世界3大llm伺候你一人,福分还不够高么?🤣 之前听到黄仁勋是这么用ai的,也知道套壳ai都支持同一个prompt让多个llm生成回答,但今天才正式开始实践。 效果显著。经过今天的使用,我觉得可以作为习惯固定下来。 毕竟,我们和llm对话的都不是确定答案的问题,不是为了求一个简单的答案,而更多是为了启发思考。 这样的话,让llm作为思想对话的多个对象,岂不是有多个专家“圆桌讨论”、管理学中Delphi方法的意味了?何乐而不为? 当然,更直接的原因是:三个llm会员,开都开了,别浪费🤣
#LLM
#AI对话
#多模型对比
#启发思考
#效率提升
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
由LLM演化而来的AGI能力边界,终将不由参数规模决定,而由它在真实世界中“自我演化”的路径决定。 我们的语言根植于生存适应性的需要,所以其语义的丰富性受此约束,最终要回归到语用价值。 LLM用于人类社会活动中也受到类似约束每次激活的人格路径是单一的。语言有超模态的特性,因此LLM的演化多模态可能并不想我先前认为的那么重要,从沉寂半年多的deepseek最近获得关注的在长上下文突破方面的论文Native Sparse Attention: Hardware-Aligned and Natively,也许是下一个突破点。此前Anthorpic的ceo采访中也提到100M上下文窗口不是梦来看,ICL的能力可以做到几乎实时的权重更新影响输出,LLM的agentic行为可以进一步简化现在的各项工程方法。
#LLM
#AGI
#自我演化
#长上下文
#Agentic行为
分享
评论 0
0
大罗SEO
1周前
所谓的GEO其实还是很难脱离SEO独立操作的,目前大部分的LLM和AI Agent抓取信息还是依赖各种爬虫API,到最后就集中在Google Serp API,Bing,DuckDuckGo之类
#GEO
#SEO
#LLM
#AI Agent
#爬虫API
分享
评论 0
0
Tw93
2周前
这个可以的,深入理解 LLM 核心原理,动手实现你的第一个大模型,Datawhale 开源免费电子书,非常简单好读。
#LLM
#Datawhale
#开源
#电子书
#大模型
分享
评论 0
0
凡人小北
2周前
《How to Fix Your Context》这篇上下文工程指南,建议跟 Manus 六大上下文工程法则一起看,它们分别来自两个方向:一个是跑在工程一线踩过坑的 Agent 系统实践者,一个是站在系统架构角度思考 LLM 工作方式的认知构建者。 我把这两篇文章有一起读了一篇,有种“内功交叉灌顶”的感觉。 作者回顾了长上下文为什么会失败? 1️⃣ 上下文污染:当幻觉或其他错误进入上下文,并被反复引用时。 2️⃣ 上下文干扰:当上下文变得过长,以至于模型过度关注上下文,忽视了训练期间学到的内容。 3️⃣ 上下文混淆:当上下文中的多余信息被模型用来生成低质量的响应时。 4️⃣ 语境冲突:当你在语境中积累了与提示中的其他信息相冲突的新信息和工具时。 回忆下是不是都是自己遇到的问题,作者给了一些解决的思路,有很多跟 manus 惊人的一致。 1️⃣ RAG:有选择地添加相关信息以帮助 LLM 生成更好的响应 统一下认知,信息添加的底层逻辑一定不是查到了,而是查对了。作者强调 RAG 要有选择性的添加,而不是全部贴上;重点是围绕当前任务构建语义增强。 Manus 的做法是干脆放弃查入,把信息挂载在文件系统,留 path + 摘要 + 可调用工具。能明显感觉到 manus 对 token 成本的极致敏感🤭。 我自己的实践中最常见的失败是,RAG 查得很准,但 LLM 输出完全无感,因为 context 本身没告诉它该往这个方向推理。RAG 本质是建模信息在认知链条中的地位,不重要的别查入,重要的也别硬塞,要设计成“知道在哪 + 能够调”。这跟这两篇文章的底层逻辑就高度一致,真正高质量的 RAG,不在检索,在策略。 2️⃣ 工具配置:仅选择相关的工具定义添加到您的上下文中 作者提倡按需加载工具定义,而 Manus 的哲学是工具全集保持不变,用 mask 控制直接把权重干成负数。相比而言 Manus 的做法太巧妙了,可以说是对大模型底层原理应用的最佳实践了。 如果你踩过“工具定义变了导致 cache miss + hallucination 增多”的坑,一定能彻底折服。 但这两种方式解决的问题都高度一致,无非是你是靠 prompt 配置行为,还是靠 logits 控制行为? 我理解只要你希望上下文命中率高、模型行为稳定,就必须构建一个“行为可变但结构不变”的系统。至于选择哪种,重点都在让模型以为它有哪些选择。 3️⃣ 上下文隔离:将上下文隔离在各自专用的线程中 作者讲上下文隔离是为避免多任务混淆。Manus 虽然没有“线程”的抽象,但通过 append-only 的 context + 每轮状 态复述 + 工具调用封装,其实完成了逻辑线程的构建。 失败的上下文不要强行修复,而是重新创建一个上下文分支,把之前的 trace 作为引用历史保存下来。这点在实际开发中很关键 ,很多工程实践中都会出现“污染后还想继续用旧 context”的习惯,反而越补越乱。 我现在更倾向于一旦感知幻觉或目标漂移,就把当前上下文 snapshot 掉,开一个 fresh context thread,哪怕代价是多一次调用,也比把幻觉当真实继续往前错更稳定。 4️⃣ 上下文修剪:从上下文中移除不相关或不需要的信息 很多人以为修剪就是删“旧内容”,其实真正的 pruning,是删除“结构上已经失效的信息”。 他们的“能 offload 的就 offload,不能 offload 的就摘要”。我也一度以为摘要是浪费时间,但后来发现一段带摘要的 context,远比一堆片段更有推理价值。 尤其是在长任务执行中,摘要除了压缩信息,更多的是给大模型构造构造注意力锚点。我现在会把某些任务 summary 放在末尾,一方面压缩 token,另一方面也是引导模型聚焦。 顺带一提,很多人会选择把失败信息也修剪掉,但其实保留失败的 trace 本身也是一种重要策略。Manus 的做法是把失败信息 offload 到外部 trace 文件中(参考6️⃣),再在后续回顾或 summary 阶段引用。这跟人学习有点像,错误是成本最大的训练材料,不应该被直接忘掉。 补充个方法论: 上下文修剪,千万不要认为目的是“省空间”,核心是要让每个 token 都承担“策略密度”。我们最终修建掉的是模型注意力的错位。 5️⃣ 上下文总结:将累积的上下文浓缩成一个简要的总结 作者强调总结是为了更高效的行为生成。Manus 做得更极致,每一轮都复述当前目标 + 状态 + 期望动作,用自然语言重新激活注意力焦点。 我实测过不复述 vs 复述的差别:前者行为漂移率接近 30%,后者几乎稳定在主任务路径上。你能感受到的是 LLM 的注意力其实是个滑动窗口,不持续提醒,很容易跑偏,这一点就跟我们管理一个想法很多的员工一个道理。 说白了,总结不是让模型记住,而是让他去遗忘,终极目的是要做注意力的再分配。 6️⃣ 上下文卸载:将信息存储在 LLM 的上下文之外,通常通过一个存储和管理数据的工具来实现 这一部分我必须单独点个赞,确实简单有力量,很多人不以为然:就把信息放到外面嘛,有什么大不了的? 但真正在 Agent 系统里跑起来你才会发现:Context Offloading 是少数能从认知层面、工程层面、可扩展性层面都闭环的设计策略。 作者在文中提到 Anthropic 的 “think” 工具,他们干的事儿就很朴素:给 Claude 搞了一个专用 scratchpad,让它在正式输出前可以先写一写、想一想。我们过去总觉得 scratchpad 是辅助产出,但 Anthropic 的设计更像是,让 Claude 在回答前自己反刍一下。 Manus 给出的做法本质也是一样的,只不过它没有叫 scratchpad,而是把这套行为模块化写进 agent 文件系统,每一个都是模型在任务过程中产生的“中间态”,不属于主 memory,但又比 response 更结构化。 我们太容易陷入一个错觉,以为上下文是一个扔进去的信息堆,但其实真正有用的信息往往是过程中的状态,而不是最终的答案。但是这些状态恰恰是最不适合塞在主上下文里的,既容易冲淡主任务注意力,又会拖垮 token 成本。 实际上验证下来,给 Agent 留出一块临时记忆区,效果极其稳定,特别是在多步骤长任务里,模型不担不会迷失,反而行为会越来越收敛。 作者说得对,这东西简单到你不相信它有用。也许未来大模型的长记忆系统,真正的突破口不是在上下文窗口扩到多少 M,而是什么该存在主线程里,什么该写在 scratch 区。 简单总结下:从“怎么放信息”到“怎么设计上下文作为系统运行时” 加上最近对 vibe coding 的观察和体验,我现在越来越确信:未来 AI 系统真正的代码,一定是你写给模型的上下文构建逻辑。 这两篇文章,建议放进上下文工程必读清单。搞懂它们,搞 Agent 才算入门。
#上下文工程
#LLM
#RAG
#Agent系统
#上下文管理
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
和LLM这类认知智能系统交互,与其他的系统都不太一样的地方是:meta interaction 可能源自这类系统的meta learning特性。 就是你可以一直回溯,只到能继续这种交互。 从最早的prompt,如果你不知道提问,你可以问LLM怎么写提示词;今天的vibe coding也一样,你可以一直回溯到你怎么敲下claude code的第一句指令。 这是历史上从未有过的智能交互。
#LLM
#认知智能
#meta interaction
#meta learning
#智能交互
分享
评论 0
0
yan5xu
2周前
五月份发到即刻上的一个随想。 昨天回家路上突然想到一个让Agent自我成长的框架: 大部分工作都能梳理成SOP → SOP变成workflow → workflow打包成tool → tool又能成为新workflow的节点... 受《思考,快与慢》启发,这个框架天然就有两套系统: 慢系统:像人深度思考,注重逻辑推演。用最贵最聪明的大模型分析和梳理工作流程 快系统:像人的直觉,着重快速反应。用低成本模型/自动化工具执行 慢系统主动梳理工作流程,提炼成SOP,沉淀到快系统变成固定workflow。原本需要昂贵大模型一步步推理的任务,现在用便宜的工具就能快速执行! 就像公司里的牛人专门做SOP梳理一样,Agent也能主动优化自己。 现在LLM已经足够聪明,还能通过写代码自我拓展。Agent也需真的可以像人一样持续进化了!
#Agent自我成长
#SOP流程
#快慢系统
#LLM
#自动化工具
分享
评论 0
0
0xTodd
2周前
看来这次轮到我的号进入 ChatGPT 的灰度测试了😆 Plus 账号可以体验 GPT 官方的 AI Agent 了。 想重申一下我的观点,上周晚上和 Amber 那次直播里我也提到过: 1. 未来大模型 LLM 自己就会亲自做 AI Agent,然后凭借自己的入口优势占掉绝大多数市场。 2. 第三方 AI Agent 是个少见的边际效应不会递减的生意。你如果做 AI Agent 一直用其他大模型,你的用户越多,你的成本越高。 3. 大模型自己的成本却是第三方 Agent 的几分之一。这样的竞赛太难了。 4. 第三方 Agent 只能靠独家的数据,才能获得一些护城河,尽管烧钱买数据这事,依然是这些大模型互联网巨头最擅长的。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#ChatGPT灰度测试
#AI Agent
#LLM
#第三方Agent劣势
#数据护城河
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞