时政
财经
科技
虚拟货币
其他
登录
nazha
关注
统计数据
4
文章
0
粉丝
0
获赞
2
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
nazha
2周前
#分享一个有趣的事情 我特别佩服我的老板,在说任何夸张的事情都不会脸红。比如他跟大强子汇报(我司被大强子私人投资),说公司每个中高层都会每周当几个小时的客服。然后他接着说:听到这句话,东子下面的高管都吓尿了,他们真的害怕东子会让他们去当客服。 嗯,很难绷。公司的数据,到他这个层面也会被夸大。但是,他真的很笃信这些数据,信念感很强。
#老板
#夸大
#汇报
#客服
#高管
分享
评论 0
0
nazha
3周前
#分享 大脑和工具之间的抽象:Skills Anthropic 前几天推出 Skills,今天研究了下,第一眼就让我感觉怎么跟 Cursor Rules 的设计一模一样:标题、描述和被“卸载”到文件系统的详细内容。 接着仔细看了 Anthropic 提供的 Skills 示例,强烈觉得这恐怕又是 Anthropic 公司内部 dogfooding 的结果。 我的理解是:Skills 描述的对人类技能的抽象。 ## MCP 和 Skills 一般,我们把 MCP 定义为 Agent 的 **工具能力**,能够访问外部系统、执行相关流程和获取关键信息。当然,MCP 也可以来做跟 Skills 相关的事情,它可以很狭义,也可以很广义,这主要看在具体实践中的定义。 技能是更高纬度的,通过学习、训练或工作经验获得的能力。之前主要是依赖 LLMs 的内在的通用能力,而 Skills 有点类似于强化学习路径,让 LLM 有一个可参考的模板。 简单理解,MCP 不能跟 Skills 混为一谈:MCP 定位在工具,Skills 定位在技能。 在 Anthropic 发布的这张图也并没有表达 Skills 替换 MCP 的意思,工具应该是更原子化的东西。而工具 = MCP + 命令行 + 自定义脚本 + ... ## Skills 是 Anthropic 让 Claude Code/Claude Web 向迈向通用 Agent 做的努力 Anthropic 在 Claude Code 中也集成了 Skills,显然是看到了 Claude Code 在通用 Agent 方向的潜力,而不仅仅是写代码(拜托,先换个名字,不要叫 Claude Code 了)。 ## 再来看 Skills 的设计 第一个感觉就是对普通人来说真的简单。你要实现一个 MCP 工具,非编程科班出身的还真有点难度,理解 MCP 的各个概念就能让人退而却步。而 Skill 的设计呢,无非就是写文档、讲明白事情就可以。 为了实现在 Skills 执行脚本和代码,Anthropic 就必须提供一个虚拟执行环境,将部分困难转交给容器执行环境(这也许是下一个技术热点)。当然,并不是批评 MCP,MCP在设计的时候,也许并没有这个共识存在。 ## 给我们在设计 Agent 架构时的启发 技能的部分,在之前的架构设计中,有一部分是会演变成子智能体,技能详情变成了子智能体的系统提示,即 Agent as Tool / Agent as Skill 的设计。若在智能体和工具之间又加了一个技能层,给我们在设计 Agent 架构的时候,就要思考得更多了,第一个问题就是是否需要额外引入一个 Agent,如果这个 Agent 的能力能够被 Skill 承载? 对于多智能体的架构,目前我看到的一些产品,比如 Manus、 Claude Code 都是很谨慎的。Skills 给我们在设计 Agent 的时候提供另一条思路:有技能的智能体。 ## 了解 Skill, 我的建议 先从 的每个例子开始,对技能是什么有个初步的概念。再看下 这篇工程文章,深入了解 Skills 的设计。 最后,我表示我很喜欢 Skill。哪怕 Cursor Rules 出来很久,这也是我也没取思考过的工程设计。也许像浩瀚天空的一颗星,指明了一些方向。
Claude Skills系统发布引发AI行业新变革· 48 条信息
#Anthropic Skills
#通用Agent
#技能抽象
#Agent架构设计
#Claude Code
分享
评论 0
0
nazha
3周前
#分享 超好用的浏览器选择应用 大家用上了 ChatGPT Altas 了吗?Dia、Comet 是不是已经成了你的主力浏览器。但是,但是,你到底应该用哪个浏览器打开你的链接呢? 作为一个程序员,离不开 Chrome,但是 Dia 已经成为我日常工作的一部分。所以,我开发了这款软件,根据不同的路由规则打开不同的浏览器。 超级简单,把 BrowserPicker 设置为默认浏览器,在规则中设置: -> 用 ChatGPT Altas 打开 localhost -> 还是老老实实用 Chrome 打开吧 工作、生活两不误! 应用我放在 Github 了 暂时不打算收费,希望有帮助,有使用问题反馈我,🫰
#浏览器选择应用
#ChatGPT Altas
#程序员工具
#免费软件
#GitHub
分享
评论 0
0
nazha
9个月前
#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时,也没有使用使用接受人类偏好的奖励模型,而是采用了准确性(用 LeetCode 编译器来验证代码结果,以及一个确定性系统来验证数学答案)和格式奖励(将模型的思考过程强制包裹在 `<think></think>` 之间)。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动(Cold Start)数据。使用此冷启动的数据,DeepSeek 通过 SFT 微调了该模型,然后是另一个 RL 阶段。为了防止 Language Mixing 的问题,在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏 与传统的模型蒸馏不同,DeepSeek 在小模型上(比如 Llama 8B、70B,Qwen 2.5 models)通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据,对小模型进行了微调。 其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱,但和 DeepSeek-R1-Zero 差不多。 进一步,小模型纯 RL 和蒸馏的效果如何?DeepSeek 使用了 Qwen 32B 的模型作为作为对比。 有趣的结果是,对于小模型蒸馏比 RL 要更有效。
#DeepSeekR1
#推理模型
#训练方法
#计算资源
#CoT
#强化学习
分享
评论 0
0
1
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞