nazha

统计数据

4

文章

0

粉丝

0

获赞

2

阅读

2周前

#分享一个有趣的事情我特别佩服我的老板，在说任何夸张的事情都不会脸红。比如他跟大强子汇报（我司被大强子私人投资），说公司每个中高层都会每周当几个小时的客服。然后他接着说：听到这句话，东子下面的高管都吓尿了，他们真的害怕东子会让他们去当客服。嗯，很难绷。公司的数据，到他这个层面也会被夸大。但是，他真的很笃信这些数据，信念感很强。

#老板 #夸大 #汇报 #客服 #高管

3周前

#分享大脑和工具之间的抽象：Skills Anthropic 前几天推出 Skills，今天研究了下，第一眼就让我感觉怎么跟 Cursor Rules 的设计一模一样：标题、描述和被“卸载”到文件系统的详细内容。接着仔细看了 Anthropic 提供的 Skills 示例，强烈觉得这恐怕又是 Anthropic 公司内部 dogfooding 的结果。我的理解是：Skills 描述的对人类技能的抽象。 ## MCP 和 Skills 一般，我们把 MCP 定义为 Agent 的 **工具能力**，能够访问外部系统、执行相关流程和获取关键信息。当然，MCP 也可以来做跟 Skills 相关的事情，它可以很狭义，也可以很广义，这主要看在具体实践中的定义。技能是更高纬度的，通过学习、训练或工作经验获得的能力。之前主要是依赖 LLMs 的内在的通用能力，而 Skills 有点类似于强化学习路径，让 LLM 有一个可参考的模板。简单理解，MCP 不能跟 Skills 混为一谈：MCP 定位在工具，Skills 定位在技能。在 Anthropic 发布的这张图也并没有表达 Skills 替换 MCP 的意思，工具应该是更原子化的东西。而工具 = MCP + 命令行 + 自定义脚本 + ... ## Skills 是 Anthropic 让 Claude Code/Claude Web 向迈向通用 Agent 做的努力 Anthropic 在 Claude Code 中也集成了 Skills，显然是看到了 Claude Code 在通用 Agent 方向的潜力，而不仅仅是写代码（拜托，先换个名字，不要叫 Claude Code 了）。 ## 再来看 Skills 的设计第一个感觉就是对普通人来说真的简单。你要实现一个 MCP 工具，非编程科班出身的还真有点难度，理解 MCP 的各个概念就能让人退而却步。而 Skill 的设计呢，无非就是写文档、讲明白事情就可以。为了实现在 Skills 执行脚本和代码，Anthropic 就必须提供一个虚拟执行环境，将部分困难转交给容器执行环境（这也许是下一个技术热点）。当然，并不是批评 MCP，MCP在设计的时候，也许并没有这个共识存在。 ## 给我们在设计 Agent 架构时的启发技能的部分，在之前的架构设计中，有一部分是会演变成子智能体，技能详情变成了子智能体的系统提示，即 Agent as Tool / Agent as Skill 的设计。若在智能体和工具之间又加了一个技能层，给我们在设计 Agent 架构的时候，就要思考得更多了，第一个问题就是是否需要额外引入一个 Agent，如果这个 Agent 的能力能够被 Skill 承载？对于多智能体的架构，目前我看到的一些产品，比如 Manus、 Claude Code 都是很谨慎的。Skills 给我们在设计 Agent 的时候提供另一条思路：有技能的智能体。 ## 了解 Skill, 我的建议先从的每个例子开始，对技能是什么有个初步的概念。再看下这篇工程文章，深入了解 Skills 的设计。最后，我表示我很喜欢 Skill。哪怕 Cursor Rules 出来很久，这也是我也没取思考过的工程设计。也许像浩瀚天空的一颗星，指明了一些方向。

Claude Skills系统发布引发AI行业新变革· 48 条信息

#Anthropic Skills #通用Agent #技能抽象 #Agent架构设计 #Claude Code

3周前

#分享超好用的浏览器选择应用大家用上了 ChatGPT Altas 了吗？Dia、Comet 是不是已经成了你的主力浏览器。但是，但是，你到底应该用哪个浏览器打开你的链接呢？作为一个程序员，离不开 Chrome，但是 Dia 已经成为我日常工作的一部分。所以，我开发了这款软件，根据不同的路由规则打开不同的浏览器。超级简单，把 BrowserPicker 设置为默认浏览器，在规则中设置： -> 用 ChatGPT Altas 打开 localhost -> 还是老老实实用 Chrome 打开吧工作、生活两不误！应用我放在 Github 了暂时不打算收费，希望有帮助，有使用问题反馈我，🫰

#浏览器选择应用 #ChatGPT Altas #程序员工具 #免费软件 #GitHub

9个月前

#分享从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时，也没有使用使用接受人类偏好的奖励模型，而是采用了准确性（用 LeetCode 编译器来验证代码结果，以及一个确定性系统来验证数学答案）和格式奖励（将模型的思考过程强制包裹在 `<think></think>` 之间）。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动（Cold Start）数据。使用此冷启动的数据，DeepSeek 通过 SFT 微调了该模型，然后是另一个 RL 阶段。为了防止 Language Mixing 的问题，在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏与传统的模型蒸馏不同，DeepSeek 在小模型上（比如 Llama 8B、70B，Qwen 2.5 models）通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据，对小模型进行了微调。其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱，但和 DeepSeek-R1-Zero 差不多。进一步，小模型纯 RL 和蒸馏的效果如何？DeepSeek 使用了 Qwen 32B 的模型作为作为对比。有趣的结果是，对于小模型蒸馏比 RL 要更有效。

#DeepSeekR1 #推理模型 #训练方法 #计算资源 #CoT #强化学习