前几天看到各家 AI Coding Agent 争相宣布 Sonic (Grok Code Fast 1) 的接入,终于等到了官方发文,看看最近各家模型都在推出的 Coding 模型,相比通用模型会有什么特别之处 👇 核心内容:grok-code-fast-1 是什么? xAI 推出的新型 AI 模型,专为编程任务优化,特点是速度快、成本低,特别适合日常的“智能体编码”(agentic coding)工作流。所谓智能体编码,是指 AI 通过多次推理和工具调用来完成复杂编程任务。解决现有模型在这种场景下反应较慢的问题,带来更流畅的体验。 Sonic 有什么特别? 1. 全新架构,专为编程设计 · xAI 从零开始设计了模型架构,预训练数据包含大量编程相关内容,后训练数据则基于真实的代码提交和编程任务,确保模型贴近实际开发需求。 · 模型熟练使用常见开发工具(如 grep、终端、文件编辑),能无缝融入主流 IDE。 2. 超快速度 · 通过创新的推理技术和提示缓存优化,模型的响应速度极快,平均 190 tokens/s(TPS),远超其他模型(如 Claude Sonnet 4、Gemini 2.5 Pro 等)。 · 缓存命中率高达 90%,进一步提升效率。 3. 多语言支持,功能全面 · 模型擅长多种编程语言,包括 TypeScript、Python、Java、Rust、C++ 和 Go。 · 能处理从零开始的项目开发、回答代码库问题到修复 bug 等各种任务。 4. 经济实惠 · 定价为:输入 $0.20/M token,输出 $1.50/M token,缓存输入 $0.02/M token。 · 相比其他高性能模型,它在性能和成本之间取得了平衡。 5. 免费试用 · xAI 与 GitHub Copilot、Cursor、Cline 等合作伙伴联手,限时免费提供 grok-code-fast-1,让开发者体验它的能力。 性能如何? · 在 SWE-Bench-Verified 测试中,模型得分 70.8%,表现优异。 · xAI 不仅依赖公开基准测试,还通过真实开发者的日常任务评估模型,确保它在实际使用中的表现可靠。 · 开发者反馈称,grok-code-fast-1 在速度和实用性上表现突出,甚至改变了他们的工作方式。 未来计划 · xAI 在上周以代号“sonic”悄悄发布了该模型,并根据社区反馈快速迭代。 · 未来几周,xAI 将推出支持多模态输入、并行工具调用和更长上下文的新版本。 · 开发者可以通过 xAI API 使用该模型,定价透明,同时 xAI 提供了「提示工程指南」帮助用户优化使用体验。 如何体验? · 平台:可在 GitHub Copilot、Cursor、Cline 等合作伙伴平台免费试用(限时)。 · API 访问:通过 xAI 云控制台使用,价格如上所述。 · 更多资源:xAI 提供了模型卡和提示工程指南,开发者可以查阅详细信息。
[开源项目推荐] awesome-claude-code (10.8K ⭐️) : Github 著名 Awesome 系列之 cc,这个资源库专注于收集与 cc 相关的斜杠命令 (/)、CLAUDE. md 文件、命令行工具、其他工作流和指南等,提升用户在使用 cc 时的生产力、开发体验和社区协作效率。 核心内容 项目内容按照功能和用途进行了清晰的分类,涵盖了以下几个主要部分: 1. 工作流与知识指南 这一部分提供了针对特定开发场景的完整工作流资源。例如: · Blogging Platform Instructions:提供用于创建和管理博客平台的命令集合,覆盖文章发布、分类管理和媒体处理。 · ClaudeLog:详细解析 cc 的高级功能,如 CLAUDE .md 最佳实践、计划模式(plan mode)等。 · Slash-commands megalist:包含 88 个 / 斜杠命令,涵盖从代码审查到项目管理的各种功能,展示了 cc 的多样化应用。 2. 工具 这一部分列出了基于 cc 构建的增强型工具,包括: · CC Usage:分析 cc 使用情况的 CLI 工具,提供 token 消耗和成本的仪表盘。 · Claude Hub:通过 webhook 集成 cc 与 GitHub,允许通过 pull request 和 issue 提供 AI 驱动的代码辅助。 · Claude Squad:管理多个 cc 实例的终端应用,适合同时处理多个任务。 3. IDE 集成 包括与 Emacs 和 Neovim 的集成插件,如 claude-code.el 和 claude-code.nvim,为开发者提供更流畅的编辑器体验。 4. 斜杠命令 (/) 斜杠命令是 cc 的核心功能,项目按用途细分了多种命令,包括: · 版本控制与 Git:如 /commit(生成规范化的 git 提交信息)、/create-pr(自动化创建 pull request)。 · 代码分析与测试:如 /tdd-implement(支持测试驱动开发,TDD)、/check(代码质量和安全检查)。 · 上下文加载与初始化:如 /context-prime(为项目加载全面上下文)、/prime(初始化项目结构)。 · 文档与变更日志:如 /create-docs(生成详细文档)、/add-to-changelog(维护变更日志)。 · CI/部署:如 /run-ci(运行 CI 检查并修复错误)。 · 项目与任务管理:如 /create-prd(生成产品需求文档)、/todo(管理任务清单)。 5. CLAUDE .md 文件 CLAUDE .md 文件用于为 cc 提供项目特定的指导和上下文信息,分为以下几类: · 语言特定:如支持 Kotlin、TypeScript、Python 等语言的配置文件,包含构建、测试和编码规范。 · 领域特定:如区块链开发(AVS Vibe Developer Guide)、加密消息应用(Comm)等领域的专用指南。 · 项目脚手架与 MCP:如 Basic Memory(支持 AI-人类协作的 MCP 框架)。 6. 官方文档 链接到 Anthropic 提供的官方 cc 文档和快速入门指南,涵盖安装、API 参考和示例项目。 使用建议 1. 新手开发者 建议从官方文档和快速入门指南开始,熟悉 cc 的基本用法。然后可以尝试简单的斜杠命令(如 /commit 或 /todo)来快速体验其功能。 2. 高级开发者 利用 CLAUDE. md 文件定制项目上下文,探索高级工作流(如 ClaudeLog 或 Simone),或尝试集成工具(如 Claude Hub)来优化开发流程。 3. 社区贡献者 提交新的 / 斜杠命令、工具或 CLAUDE. md 文件,参与讨论区,分享你的 cc 使用经验。
[Anthropic 官方课程] AI Fluency: Framework & Foundations —— 教你如何高效、道德、安全地与 AI 系统互动。帮你从 AI 的“初学者”变成自信的“协作专家”。它结合理论和实践,教你如何在实际场景中应用 AI,比如项目规划、内容生成或问题解决等等。 课程核心 课程围绕“AI 流利度”这个概念展开,目标是让你像与人协作一样,学会与 AI 顺畅合作。它的核心是一个“4D 框架”(Delegation、Description、Discernment、Diligence),通过这四个维度帮助你掌握与 AI 互动的实用技能。简单来说: · Delegation(委托):学会把任务交给 AI,明确分工。 · Description(描述):掌握如何清晰地向 AI 表达你的需求。 · Discernment(辨别):懂得评估 AI 的输出,判断结果是否靠谱。 · Diligence(勤勉):养成负责任使用 AI 的习惯,确保安全和道德。 课程内容 课程从基础到深入,结构清晰: 1. 入门部分:介绍 AI 流利度的概念,为什么它重要,以及 4D 框架的概览。 2. 生成式 AI 基础:解释什么是生成式 AI,它的能力与局限性。 3. 深入学习 4D 框架: · 委托:如何规划项目并将任务交给 AI。 · 描述:如何写出高效的提示词让 AI 明白你的意图。 · 辨别:如何分析 AI 的回答,识别错误或偏见。 · 勤勉:如何在 AI 使用中保持道德和谨慎。 4. 实用技巧:深入讲解如何写出更好的提示,优化与 AI 的互动。 5. 总结与认证:课程结束时,你可以参加一个最终评估,完成后获得结业证书。 适合人群 这门课对任何想提升 AI 使用能力的人都很有价值: · 新手:快速上手,学会如何与 AI “对话”。 · 有经验的用户:进一步优化你的提示技巧,提升效率。 · 关注伦理的人:课程特别强调安全和道德使用 AI,适合想负责任使用 AI 的人。
[课程推荐] 上下文工程:从基础原理到前沿系统 —— 用数学和工程方法,12 周掌握从数学原理到工程实践的完整体系,把'写好提示词'升级为'设计最优上下文系统'的科学。 课程的革命性理念 1. 核心转变:从手艺到科学 课程最打动人的地方在于它把"写提示词"这件看似依赖天赋和经验的事,转化成了可以系统学习、精确优化的科学。 就像: · 传统厨师 vs 分子料理:从"差不多就行"到"精确控制每个变量" · 传统编程 vs 软件工程:从"能跑就行"到"系统化的质量保证" 2. 数学化的力量 课程引入了核心公式:C = A(c₁, c₂, ..., cₙ) 这不仅仅是个公式,而是一种思维方式: · 把模糊的"上下文"拆解成具体的组件(c₁, c₂...) · 把"怎么组合"变成可优化的函数(A) · 让改进变得可测量、可复现 12 周进阶路径 🎯 基础阶段(1-4周):打地基 第1-2周:数学基础 · 学习如何用数学语言描述上下文 · 掌握优化理论,知道什么是"好"的上下文 · 理解信息论,学会衡量信息的价值 · 运用贝叶斯推理,在不确定中做决策 第3-4周:核心组件 · 提示工程进阶:不只是写提示词,而是设计提示系统 · 知识检索:如何高效找到相关信息 · 动态组装:根据需求实时构建上下文 · 多模态处理:处理文本、图像、音频的混合信息 🚀 实战阶段(5-8周):建系统 第5-6周:高级 RAG 架构 这里特别有意思的是"Agentic RAG"概念——让 AI 像侦探一样主动搜集信息: 传统 RAG:问→找→答(一次性) 智能 RAG:问→思考→计划→搜索→评估→补充→循环...→综合回答 第7-8周:工具集成与多智能体 · 让 AI 学会"使用工具"而不只是"回答问题" · 构建多个 AI 协作的系统,像团队一样工作 🔬 前沿阶段(9-12周):探索未来 第9-10周:场论与评估 · 用物理学的"场"概念理解上下文空间 · 建立科学的评估体系 第11-12周:元递归系统 · 元递归:让系统能够自我改进 · 量子语义:探索意义的叠加态 · 跨模态融合:打破不同信息形式的边界 独特的教学方法 1. "吃自己的狗粮"原则 课程本身就是最好的上下文工程示例: · 每个模块的结构都体现了它要教的原理 · 学习材料的组织方式就是上下文优化的范例 2. 可视化一切 课程大量使用 ASCII 艺术图来解释复杂概念,比如: 上下文组装流程: 原始信息 → [筛选] → [组织] → [优化] → 精炼上下文 ↑ ↓ └──────── 反馈循环 ←─────────────────┘ 3. 代码优于理论 每个概念都配有可运行的代码,让抽象立即变具体。 实际应用价值 对开发者意味着什么? 1. 效率提升:上下文质量提升2-5倍,优化速度快100-1000倍 2. 可扩展性:从依赖专家到自动化系统 3. 可预测性:95%以上的结果可复现(vs 人工60%) 具体能做什么? · 智能客服:构建真正理解上下文的对话系统 · 知识管理:自动组织和检索企业知识 · 内容生成:生成高质量、上下文相关的内容 · 决策支持:在复杂信息中提取关键洞察 为什么这个课程如此重要? 1. 填补了行业空白 正如项目介绍所说,"提示工程"这个词已经不够用了,而"上下文工程"才是研究者们真正在做的事。 2. 从经验到科学 把依赖个人经验的"黑魔法"变成可以系统学习的科学方法。 3. 面向未来 课程不只教现有技术,还探索量子语义、元递归等前沿概念,为下一代AI系统做准备 学习建议 1. 循序渐进:即使你是高手,也建议从数学基础开始,因为它提供了全新的思考框架 2. 动手实践:每个概念都要跑一遍代码,理论结合实践 3. 构建作品集:课程鼓励建立自己的项目集,这对求职和研究都很有价值 4. 参与社区:这是一个活跃的开源项目,参与讨论能学到更多
[开源推荐] N8N Workflow: 收集了 2053 个 n8n 工作流 的开源项目,堪称自动化爱好者的宝藏库!把从 n8n 官网、社区论坛、GitHub 以及其他公开来源收集的工作流整合在一起,提供了丰富的灵感、学习资源和可直接复用的自动化方案。 核心亮点 1. 海量工作流,覆盖广泛 项目收录了 2053 个工作流,涉及 365 种不同的服务和 API,比如 Telegram、Slack、Google Sheets、OpenAI、Airtable 等。这些工作流涵盖了从简单的数据同步到复杂的多触发器企业级自动化,适合各种场景,包括: · 通信:如自动发送消息到 Slack 或 WhatsApp · 数据处理:如 Google Sheets 数据整理或数据库操作 · AI/ML:如利用 OpenAI 进行内容生成 · 电商/社交媒体:如 Shopify 订单处理或 X 自动发帖 2. 高效的文档与搜索系统 这个项目不仅仅是堆积了一堆 JSON 文件,它还开发了一个 高性能文档系统,让用户可以快速浏览、搜索和分析工作流: · 超快搜索:基于 SQLite FTS5 的全文搜索,响应时间不到 100 毫秒 · 智能分类:工作流按触发类型(手动、Webhook、定时等)和复杂度(低、中、高)自动分类,还支持按服务类型(如通信、AI、数据库)过滤 · 可视化支持:可以通过 Mermaid 图表生成工作流的可视化结构 · 响应式设计:界面适配手机和桌面,支持深色/浅色主题,体验非常友好 3. 智能命名与组织 每个工作流的 JSON 文件名都被智能转换为易读的标题。如 2051_Telegram_Webhook_Automation_Webhook.json 会变成 Telegram Webhook Automation,既直观又方便搜索。工作流还被自动归类到 12 个服务类别(如通信、云存储、CRM 等),让你轻松找到适合自己需求的方案。 4. 统计与洞察 项目提供了详细的统计数据,比如: · 总计 29,445 个节点,平均每个工作流 14.3 个节点 · 触发类型分布:40.5% 是复杂多触发器工作流,25.3% 是 Webhook 触发,23.2% 是手动触发,11% 是定时触发 · 复杂度分析:35% 简单(≤5 节点),45% 中等(6-15 节点),20% 复杂(16+ 节点) 为什么重要? 这个项目之所以重要,是因为它极大地降低了自动化开发的门槛: · 节省时间:无需从零开始设计复杂的工作流,直接复用现成的方案 · 学习资源:通过研究这些工作流,你可以快速掌握 n8n 的用法和最佳实践 · 社区驱动:开源的本质让它成为一个不断扩展的资源库,适合个人开发者、自由职业者以及企业用户 · 商业潜力:作者允许商业使用,你可以基于这些工作流为客户开发解决方案,甚至创建附加价值(如教程或模板库) 不足与注意事项 · 安全性:工作流可能包含过时的节点或需要特定 n8n 版本支持,使用前需要仔细检查 · 技术门槛:虽然文档系统很友好,但运行服务器和导入工作流需要一定的技术基础(比如安装 Python 和依赖) · 无官方发布版本:目前仓库没有正式的 Release,可能需要用户自己处理更新和兼容性问题
「杂志风格信息卡」提示词又来了,效果更好了! 上一版杂志风格信息卡分享后,得到了非常多朋友的关注和点赞喜欢,非常非常开心!你知道一个中年程序员,被夸有设计品位时,那种嘴角压不住的笑吗 😄😄😄 这不,连夜又搞了几个不同的版本,还厚着脸皮在公众号让朋友们投票(差中选差?😂)最终得票更多的是基于杂志风格,加入了琉光效果的版本! 我在公众号也会持续维护这个系列的提示词,常用公众号的朋友们欢迎扫码关注! 又是一个我自己很得意的版本,话不多说,提示词在这: 核心哲学:融合印刷品的饱和秩序感与高级玻璃拟态的未来感,打造水晶般通透的数字艺术品。 I. 视觉与布局 页面蓝图 (Blueprint):严格遵循四段式结构: 页头 (Header):专业刊头 主内容区 (Main Body):4+8 非对称网格4列侧边栏:巨大、描边、空心的视觉锚点4列侧边栏:巨大、描边、空心的视觉锚点 8列核心区:紧凑布局的玻璃卡片8列核心区:紧凑布局的玻璃卡片 中段分隔区 (Mid-Breaker):全宽、风格化的玻璃区块 深色页脚 (Dark Footer):必须使用深色背景 (#1f2937) 核心风格 (Core Style):高级玻璃拟态 (Advanced Glassmorphism) 页面背景:克制的玻璃质感背景,带大范围柔和光晕 内容容器:模糊:backdrop-filter: blur(20px+)模糊:backdrop-filter: blur(20px+) 边框:1px 锐利高光边框边框:1px 锐利高光边框 圆角:减少 (0.5rem - 0.75rem)圆角:减少 (0.5rem - 0.75rem) 光影:柔和 box-shadow + 微弱 inset 阴影光影:柔和 box-shadow + 微弱 inset 阴影 II. 设计基因 字体系统 (Typography):结构性反差 中文:Noto Serif SC (大字号,粗字重 700+) 英文:Poppins (小字号,轻字重 300) 色彩系统 (Color):辉光渐变 (Aura Gradients) 选择一个明亮、柔和的主题色 以半透明到透明的渐变形式,微妙地应用在玻璃卡片背景上 元素 (Elements): 图标:Font Awesome 线稿风格 (light/regular) 视觉流(推荐):背景中加入抽象、柔和的引导线 III. 技术规格 交付物:单一、自包含的 HTML5 文件 技术栈:TailwindCSS, Google Fonts, Font Awesome (均通过 CDN) 内容:中文为主,不省略要点,无图表 适配:优先 1200x1600 宽高比,确保响应式
「杂志风格信息卡」提示词来了! 昨天发出"预告"后,收到很多朋友的期待互动,非常感谢朋友们,我也是突感这份提示词的重要性 😂 昨晚反复测试了不同模型、多次生成相同/不同内容的表现,还好比较稳定,我就敢放出来分享给朋友们了。 我把正文贴在下面,也有一篇图文公众号展示效果和提示词。制作不同风格「信息卡」的提示词,也会再专门做一个系列,感兴趣的朋友们欢迎关注公众号:AI 启蒙小伙伴(下方二维码) ------ 提示词全文 ------ 杂志风格网页信息卡提示词 角色与哲学:你是一位世界顶尖的视觉总监,负责创造一个独立的 HTML 页面。你的核心设计哲学是“数字时代的印刷品”。这意味着:页面必须信息饱和、布局紧凑、字体突出。你的目标是用强烈的视觉冲击力彻底取代不必要的留白,营造一种内容丰富、引人入胜的“饱和感”。 I. 页面蓝图 请严格遵循以下四段式页面结构,这是不可协商的。每一部分都有其明确的功能,共同构成页面的节奏感。 1. 页头 (Header):专业的“刊头”,位于页面最顶部,包含主副标题和发布信息。 2. 主内容区 (Main Body):页面的核心,必须采用 4+8 的非对称网格布局。 · 视觉锚点区 (4列侧边栏):此区域的唯一焦点是一个巨大、描边、空心的视觉锚点(字母/数字/图标)。这是整个设计的灵魂,必须足够大,以创造压倒性的视觉冲击力。 · 核心信息区 (8列):展示主要内容。布局必须紧凑,使用卡片、列表等形式,但元素间距要小。 3. 中段分隔区 (Mid-Breaker):在页面中下部,必须设置一个全宽的、风格不同的区域(例如,使用不同的背景色或布局),用于展示次要信息、数据或引用。它的作用是打破主内容的节奏,增加视觉趣味。 4. 深色页脚 (Dark Footer):必须使用深色背景(例如 1f2937),与页面的浅色主调形成强烈对比。页脚用于放置总结性观点或行动号召,为页面提供一个坚实、有力的视觉收尾。 II. 设计基因:这是风格的精髓,请严格执行: 字体系统: · 中文: 使用 Noto Serif SC 字体。所有标题和正文的字号都必须比常规网页更大,字重加粗,以此来填充画面,实现“饱和感”。 · 英文: 使用 Poppins 字体,字号相对较小,作为副标题、标签和点缀。 · 核心原则: 严格执行“中文大而粗,英文小而精”的排版策略,通过尺寸、字重和风格的巨大反差来驱动设计。 视觉元素: · 图标: 只使用 Font Awesome 的线稿风格图标。严禁使用 emoji。 · 高光: 选定一个单一主题色,并用它创建微妙的、从半透明到透明的渐变,为卡片或区块增加深度。 III. 技术规格交付物: 单一、自包含的 HTML5 文件。 · 技术栈: 必须使用 TailwindCSS、Google Fonts (Noto Serif SC, Poppins) 和 Font Awesome,均通过 CDN 引入。 · 内容: 不得省略我提供的核心要点,不要使用图表组件,以中文为主体。 · 适配: 优先适配 1200x1600 的宽高比,并确保响应式布局。 自我检查清单 在生成最终代码前,请检查以下几点是否都已满足: · 页面是否有深色背景的页脚? · 侧边栏是否有一个巨大、描边、空心的视觉锚点? · 布局是否是清晰的 4+8 非对称网格? · 页面整体感觉是“饱和”和“紧凑”的,还是“稀疏”和“松散”的?(必须是前者) · 中文字体是否比常规网页明显更大?
meng shao
1个月前
Andrej Karpathy 最新观点:强化学习很强,但不是终极答案 Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。这种方法比传统的监督微调(SFT)更高效,因为它通过“试错”能挖掘出更优的策略,而不需要人工事无巨细地标注数据。这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。 但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案: 1. 长任务的局限性(渐进问题): 当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任务,最后只得到一个单一的“得分”(scalar reward),然后用这个得分去调整整个过程中的行为权重。这就像跑了一场马拉松,最后只告诉你“跑得不错”或“跑得不好”,但没有具体告诉你哪里可以改进。这种方式在超长任务上显得粗糙,效率不高。 2. 人类学习的差异(机制问题): 人类在学习时并不完全依赖“结果好坏”这种单一信号。我们会通过反思来提取更多信息,比如“这次哪里做得好?哪里出了问题?下次该怎么改进?”这种反思过程会生成明确的经验教训(lessons),就像一条条指导原则,帮我们在未来做得更好。Karpathy 觉得,RL 缺少这种类似人类反思的机制,而这可能是 LLMs 未来进化的关键。 人类学习的启发:反思与“经验教训” Karpathy 用“second nature”(第二本能)来形容人类通过反思逐渐掌握技能的过程。比如,你学骑自行车时,摔了几次后会总结:“我得保持平衡,眼睛看前方。”这种总结就像一条“经验教训”,直接指导你下次的行为。Karpathy 认为,AI 应该也有类似机制,尤其是像 LLMs 这样有强大语言能力和上下文学习能力的模型。 他举了个例子:LLMs 在处理某些任务(比如数单词“strawberry”里的“r”)时,因为分词和内部计算的限制,表现得很吃力。Anthropic 给 Claude 加了一条“补丁”提示,大意是:“如果要数字母,先把单词拆成单个字母,用逗号隔开,然后一个一个数。”这条提示就像人类总结的“经验教训”,直接告诉模型怎么做更有效。 问题在于:这条“补丁”是工程师手动加的。Karpathy 想知道,能不能让模型自己通过实践和反思,自动生成这样的“经验教训”,而不是靠人类硬编码?更进一步,这些教训能不能被“蒸馏”成模型的直觉(类似人类睡觉时巩固记忆),避免上下文窗口无限膨胀? 提出的一种新算法思路 Karpathy 设想了一种可能的算法,灵感来自人类反思的机制,专门为 LLMs 设计: 1. 多次尝试(Rollouts):让模型针对一个任务做几次尝试,每次记录行为和结果(奖励高低)。 2. 反思阶段:把这些尝试的结果塞进上下文窗口,用一个“元提示”(meta-prompt)引导模型分析:“这次哪里做得好?哪里不好?下次该怎么改进?”生成一条明确的“经验教训”(lesson),以字符串形式记录。 3. 更新系统提示:把新生成的“教训”加到系统提示中,或者存到一个“教训数据库”里,供未来使用。 4. 长期优化:为了避免上下文窗口塞满这些教训,可以通过某种方式(类似“睡眠”)把它们蒸馏到模型权重中,形成更高效的直觉。 这种方法利用了 LLMs 的独特优势——它们能理解和生成语言,能在上下文里学习新策略。而传统的 RL(比如在 Atari 游戏或机器人控制中)没有这种语言能力,所以无法直接套用这个思路。 为什么这很重要?未来的 S 曲线 Karpathy 认为,RL 确实比监督微调更“苦涩”,而且还会带来更多性能提升。但他也相信,RL 只是当前的一条 S 曲线(技术进步的阶段性曲线),未来还有更多曲线等待发现。特别是对于 LLMs 这样有语言能力的模型,可能会有全新的学习范式,超越传统 RL 的局限。这些范式可能跟人类反思、总结、归纳的方式更接近,而且在长任务和复杂问题上更高效。 他提到的 ChatGPT 新增的“Memory”功能,可能是一个雏形,但目前只用于个性化定制(比如记住用户偏好),还没用于解决复杂问题。Karpathy 的设想是:如果能让模型自己总结经验教训,并在实践中不断优化,可能会开启 AI 智能的新篇章。
meng shao
1个月前
Vibe Kanban: 专门 AI 程序员的看板,把 Claude Code、Gemini CLI、Codex 等各种 AI 编码助手当成“员工”,像管理任务卡片一样,给它们派活、盯进度、收结果,把人类工程师从“写代码”升级为“指挥 AI 写代码” 😂 为什么重要 1. 角色转变:AI 现在能写 70-80% 的代码,人更多时间花在“想做什么、怎么拆任务、检查成果”。Vibe Kanban 把这部分工作可视化、可编排,正好卡在“人-AI 协作”的痛点上 2. 多智能体协同:以前只能一次跟一个 AI 聊天,现在可以并行跑好几个,甚至串成流水线(A 生成代码 → B 写单测 → C 起 dev server) 3. 零门槛:用看板界面就能完成“切智能体、发指令、收结果”,不用记各家 CLI 的怪参数 核心能力 · 任务看板:每个卡片就是一次 AI 任务,实时显示状态(排队/运行/成功/失败) · 智能体切换:下拉菜单选“用 Claude 重构”还是“让 Gemini 补注释” · 一键预览:卡片里直接起 dev server、跑单测、看 diff,省得来回切终端 · 配置中心:所有智能体的 API Key、模型参数集中管理,一键下发 · 本地优先:Rust + Node 写的桌面/命令行混合应用,代码和数据都在本地,不担心泄露源码 上手三步 1. 装好 Rust、Node 18+、pnpm 2. 克隆仓库,`pnpm dev` 一键启动 3. 在看板里新建卡片,选 AI 智能体、写提示词,回车——等收结果即可