meng shao
5小时前
Remotion Skills 制作视频完整过程和提示词 最近我的「AI 启蒙小伙伴」在小红书和视频号等平台用 Remotion Skills 制作了很多期动画视频,很多朋友留言想了解咱们的视频是怎么做的,尤其是视频号,春节期间关注增长了 4000 多,单篇视频最高观看也到了 8 万,转发 4 千多,今天就一并分享制作环境、过程和提示词。 制作环境: Claude Code/OpenClaw/Codex/Cursor 等支持 Agent Skills 的 AI Agent,使用 'remotion-best-practices' 这个 Agent Skill,大家可以自行搜索,或让 AI Agent 自己找自己装。 视频核心结构: Hook → Why → Process → Essence → Tips → End Card 每个场景 4-8 秒,控制在 1 分钟内。 制作过程: 在 AI Agent 中输入要求,请使用 remotion-best-practices 为以下内容生成动画视频,参考以下提示词 [...],输出 MP4 文件。 视频提示词: 请按以下规范生成一条 3:4 竖版短视频: 分辨率1080×1440,30fps,时长15-20秒。背景音乐音量0.28~0.35,前1秒淡入,后1.5秒淡出。全片基底 #08090c,主色暖橙#f59e0b、辅色冷青#06b6d4,禁止蓝紫渐变与高饱和荧光色。 结构:Hook 25%、Content 55%、End Card 15%。Hook 要突出成本对比/核心数据,标题≥80px,团队badge置顶,左右飞入形成碰撞感。 Content 每幕单观点,卡片左/右滑入 spring,progress bar 同步推进;使用 100-140 刚度与damping 18-22。 End Card 显示品牌名、头像旋转光环、三按钮(点赞/转发/关注)横向错位弹入,布局居中。 字体:英文标题 Oswald,中文大标题 Noto Serif SC(60px+),正文 Noto Sans SC(28px+);居中 flex,左右内边距50-80px。 视觉:叠加 0.025 噪点、极淡网格线、60-100px 大光晕 blur(频率≤0.04);关键元素加 willChange。 动画统一:入场 spring 交错 delay10-15帧,转场 fade 15帧且场景重叠;禁止 breathe scale、scan line、wipe。 最后保留 20-30 帧阅读停顿,结尾必须含 CTA(点赞/转发/关注)。
逛 Reddit 看到的 OpenClaw 最佳实践,5 个基本原则 1. 安全第一:绝不盲装 ClawHub 技能 · 自己写 SKILL. md(纯 Markdown 说明即可) · 含 scripts/ 的必须逐行审查 · 只用内置工具(web_fetch、web_search、exec)的技能最安全 · 零依赖 = 最优 2. 文件即大脑(最重要!) 所有上下文必须落地,否则 compaction 后全部丢失: · MEMORY. md → 长期记忆 · memory/YYYY-MM-DD.md → 每日日志 · ACTIVE-TASK. md → 当前任务工作记忆 · 工作中途也要 checkpoint 3. 模型分层 · 主智能体 → Claude Opus(协调、复杂推理) · 子任务/专项 → Claude Sonnet(5 倍性价比) · 必须配置模型回退机制 备注:这里可以把 Claude 模型对应替换为其他你自己测试过的模型,来降低成本。 4. Cron 驱动一切 把晨报、收件箱、监控、扫描等全部定时化,合并成少数「心跳任务」。 5. 极简技能哲学 最好的技能往往没有一行代码,只是一份写得好的 SKILL. md,教智能体如何用内置工具完成任务。 推荐项目结构(社区标准) ~/workspace/ ├── SOUL. md # 人格 ├── MEMORY. md # 长期记忆 ├── ACTIVE-TASK. md # 当前任务 ├── HEARTBEAT. md # 定时任务清单 ├── memory/ # 日志 └── skills/ # 自定义技能 常见问题避雷 · 运行中改配置 · 信 ClawHub 下载量 · 不读 Skills 就安装 · 让智能体无批准发邮件/推文 Reddit 地址:
OpenAI 工程博客:Harness Engineering — Agent-First 时代的软件工程实践 实验概要 OpenAI 内部团队用五个月时间,从空仓库开始构建了一个真实的内部产品,全程零行人工手写代码。3 名工程师驱动 Codex 产出约 100 万行代码、合并约 1,500 个 PR,人均日吞吐 3.5 个 PR,估计效率约为手写的 10 倍。产品已有数百名内部用户日常使用。 核心一句话:人类掌舵,Agent 执行。 工程师角色的转变 早期进展比预期慢,瓶颈不在 Agent 的能力,而在环境的规范程度不足——Agent 缺乏正确工作所需的工具、抽象和结构。 工程师的工作因此从"写代码"变成了"让 Agent 能写好代码":拆解目标、构建模块、搭建反馈回路。当出了问题,解决方案从来不是"再试一次",而是追问:Agent 缺什么能力?如何让它可见且可强制执行? 这是一种元能力的转移——从生产者变为环境设计师。 知识管理:地图,而非百科全书 团队试过"一个大 AGENTS. md 装一切",失败了。原因直白:大文件难以验证、即时过时、过多指导等于没有指导、还挤占宝贵的上下文窗口。 最终做法是把 AGENTS. md 控制在约 100 行,仅充当目录和导航。真正的知识存储在结构化的 docs/ 目录中——设计文档、执行计划、产品规格、架构描述、质量评分——全部版本化、可索引。 设计原则是渐进式披露:Agent 从一个小而稳定的入口出发,按需向深层导航,不被一次性淹没。文档健康度由自动化 lint 和 CI 守护,还有一个"文档园丁"Agent 定期扫描过时内容并提交修复。 Agent 可读性 提出一个锐利的观点:从 Agent 视角看,凡是它在运行时无法访问的信息,等同于不存在。 Slack 对话、Google Doc、人脑中的共识——对 Agent 来说与对三个月后的新人一样不可见。 因此团队持续将上下文推入仓库。技术选型上偏好"无聊技术"——API 稳定、可组合、在训练数据中有充分表征。某些场景下,让 Agent 自行实现一个功能子集比依赖行为不透明的第三方库更划算。 为提升 QA 能力,团队还把应用 UI、日志、指标直接暴露给 Agent——接入 Chrome DevTools Protocol 让 Codex 能自行截图、操控 DOM、复现 Bug;接入本地可观测性栈让 Agent 可以用 LogQL 和 PromQL 查询日志和指标。单次 Codex 运行可以持续超过 6 小时,往往在工程师睡觉时工作。 架构约束作为速度的前提 每个业务领域被分为固定层次(Types → Config → Repo → Service → Runtime → UI),依赖方向严格单向,跨切关注点通过唯一的 Providers 接口注入。违规代码被自定义 lint 直接拦截,错误信息中嵌入修复指引,让 Agent 能自行纠正。 文章强调:这种通常在数百人团队才引入的架构纪律,在 Agent 模式下是早期前提——约束本身就是速度的来源。 同时,约束不是无处不在的:集中管控边界,局部充分自治。Agent 生成的代码未必符合人类风格偏好,但只要正确、可维护、对未来 Agent 可读,就达标。 熵的治理 Agent 会复制仓库中已有的模式,包括不理想的模式。早期团队每周五花 20% 时间手动清理"AI slop",无法持续。 最终方案是编码"黄金原则"并建立自动化循环:后台 Codex 任务定期扫描偏差、更新质量评分、提交定向重构 PR,大部分可在一分钟内审查并自动合并。文章的类比精准:技术债像高息贷款,持续小额偿还几乎总比让它复利累积后痛苦清偿要好。 自治里程碑 文末描述了一个标志性节点:给定单一提示,Codex 已能端到端完成——复现 Bug、录制失败视频、实现修复、验证修复、打开 PR、回应反馈、检测并修复构建失败、合并变更,仅在需要人类判断时升级。 但文章也审慎地说:这高度依赖特定仓库的结构和工具链投入,不应假设可直接泛化。
解读一:自修改 AI Agent 意味着什么? Peter 构建 OpenClaw 的方式本身就是一个自指结构。他用 Codex 来写 OpenClaw 的代码,而 OpenClaw 的核心功能之一是让 Agent 可以理解并修改自己的运行环境。这不是一个设计好的架构,而是自然涌现的结果——Peter 用原话描述: > "I didn't even plan it so much. It just happened." 第一层——开发时的自省调试。 Peter 在调试 OpenClaw 时,不是自己去读日志或打断点,而是直接问正在运行的 Agent:"你看到了哪些工具?你能自己调用这些工具吗?你看到了什么错误?去读源代码,搞清楚问题在哪。" 这意味着 Agent 是用来调试自身所寄宿的那个软件系统的。这不同于通常意义上的"用 AI 辅助编程"——这里 Agent 同时是被调试的对象和执行调试的主体。 第二层——运行时的自我修改。 因为 Peter 让 Agent 完全了解自己的源代码结构、运行 harness 的架构、文档的位置、当前使用的模型和配置,Agent 拥有了修改自身行为的充分上下文。当用户对某个功能不满意时,可以直接告诉 Agent "你改一下自己",Agent 就会找到相关代码并提交修改。Peter 的原话带着一种轻描淡写的震撼: > "People talk about self-modifying software, I just built it." 第三层——社区的"提示请求"。 这是最出乎意料的社会效应。大量从未写过代码的人,通过 OpenClaw 的自修改能力提交了 pull request。他们的工作流程是:告诉自己的 Agent 想要什么功能,Agent 修改代码,他们再把修改提交到 GitHub。Peter 承认很多 PR 的质量很差,他半开玩笑地称之为"prompt requests"而非 pull requests。但他随即认真地说: > "Every time someone made the first pull request is a win for our society. It doesn't matter how shitty it is, you gotta start somewhere." 这意味着什么呢? Lex 在对话中用了一个非常庄重的表述——"What a moment to be alive in the history of humanity and the history of programming"——这不完全是夸张。 自修改程序在计算机科学中是一个古老的概念,从 Lisp 的 eval 到遗传编程,从冯·诺依曼架构中数据与指令的统一到 quine。但过去所有的自修改系统要么在极度受限的搜索空间内操作(如遗传算法),要么需要人类精确定义修改规则。 OpenClaw 的不同之处在于:这里的自修改是由通用语言模型驱动的,Agent 对自身系统的理解不是硬编码的元数据,而是通过阅读源代码、文档、配置文件获得的语义理解。它修改自身的方式与人类程序员修改代码的方式本质上相同——阅读、理解、推理、编辑。 这产生了一个微妙但重要的认知转变:过去,软件是被动的人造物。现在,你面对的是一个具有某种程度"自我意识"的系统——它知道自己在哪里运行、知道自己由什么代码构成、知道如何改变自己的行为。Peter 在对话中没有过分渲染这一点,反而是以一种工程师式的平淡来描述——但正是这种平淡让它显得更加真实和有重量。
Anthropic 官方发布的 Skills 构建完整指南(33页) Skill 是什么?为什么重要? Skill 本质上是一个文件夹,核心是一个 SKILL. md 文件,用 Markdown + YAML frontmatter 编写。它的作用是:把你反复向 Claude 解释的偏好、流程、领域知识打包成一次性的"教学材料",之后每次对话自动生效。 可以把它理解为 Claude 的"标准操作手册"——你不再需要每次都重新 prompt,而是让 Claude 按照预设的工作流自动执行。 Skill 文件夹的标准结构: your-skill-name/ SKILL. md     # 必须,主文件 scripts/          # 可选,可执行脚本 references/   # 可选,参考文档 assets/ # 可选,模板、图标等资源 三层渐进式信息披露 第一层:YAML frontmatter,name + description,始终加载在系统提示词中,用于判断是否激活 第二层:SKILL. md,正文完整指令、步骤、示例,仅当 Claude 判断该 Skill 与当前任务相关时加载 第三层:引用文件,references/ 目录下的文档,仅在需要时按需读取 这意味着:即使你启用了几十个 Skill,Claude 并不会把所有内容都塞进上下文。第一层的 description 就像一个"触发器"——写得好,Skill 才能在正确的时机被激活。 Skill 与 MCP 的关系 指南用了一个非常好的比喻: > MCP 是专业厨房(工具、食材、设备),Skill 是菜谱(步骤指令)。 MCP(连接层) | Skill(知识层) 连接外部服务 | 如何高效使用这些服务 提供工具调用能力 | 封装最佳实践和工作流 解决"能做什么" | 解决"该怎么做" 没有 Skill 的 MCP,用户拿到了工具却不知道怎么用;有了 Skill,等于给工具配上了说明书和经验沉淀。这对 MCP 服务提供商来说是竞争力的差异化——有 Skill 的集成比纯 MCP 集成更容易上手。 三大使用场景分类 1. 文档与资产创作(Category 1) 不依赖外部工具,纯靠 Claude 内置能力。典型:前端设计、文档生成、PPT/Excel 创建。核心技巧是内嵌风格指南、模板结构和质量检查清单。 2. 工作流自动化(Category 2) 多步骤流程的标准化执行。典型:使用 skill-creator 引导用户一步步创建新 Skill。核心技巧是步骤间的验证门控和迭代改进循环。 3. MCP 增强(Category 3) 为已有 MCP 连接提供工作流指导。典型:Sentry 的代码审查 Skill——自动从 Sentry 拉取错误数据,分析 GitHub PR,给出修复建议。核心技巧是编排多个 MCP 调用序列、嵌入领域专业知识。 YAML Frontmatter 的关键细节 硬性规则: · 文件名必须精确为 SKILL. md(大小写敏感) · 文件夹名必须用 kebab-case(如 my-cool-skill),禁止空格、下划线、大写 · 不允许在 Skill 文件夹内放 README. md · 禁止使用 XML 尖括号 < >(防止系统提示词注入) · 名称中不能包含 "claude" 或 "anthropic"(保留字) description 字段的写法决定成败: 好的写法需要同时包含三个要素:做什么 + 何时触发 + 关键能力。 五大实战模式 模式 1:顺序工作流编排 适用于严格按步骤执行的流程(如客户入驻:创建账户 → 设置支付 → 创建订阅 → 发欢迎邮件),强调步骤间的依赖关系和失败回滚。 模式 2:多 MCP 协调 跨多个服务的联合工作流(如设计到开发交接:Figma 导出 → Google Drive 存储 → Linear 建任务 → Slack 通知),关键是阶段间的数据传递和集中式错误处理。 模式 3:迭代精炼 输出质量需要多轮改进的场景(如报告生成:初稿 → 质量检查 → 修正 → 再验证),核心是明确的质量标准和"何时停止迭代"的判断。 模式 4:上下文感知的工具选择 同一目标、根据条件选择不同工具(如文件存储:大文件走云存储、协作文档走 Notion、代码走 GitHub),需要清晰的决策树和备选方案。 模式 5:领域专业智能 嵌入专业知识而非仅仅调用工具(如支付合规:先做制裁名单检查和风险评估,通过后才处理交易),强调合规先于行动、完整的审计追踪。 测试策略 1. 触发测试——Skill 是否在正确时机被激活? · 直接请求能触发 · 换种说法也能触发 · 无关请求不会误触发 · 调试技巧:直接问 Claude "你什么时候会使用 [skill name] 这个 skill?",它会引用 description 回答 2. 功能测试——执行结果是否正确? · 输出验证、API 调用成功率、边界情况覆盖 3. 性能对比——有无 Skill 的差异 · 对话轮次从 15 轮降到 2 轮 · 失败 API 调用从 3 次降到 0 次 · Token 消耗减半 一个重要的实践建议:先在单个困难任务上反复迭代,直到成功,再提取经验写入 Skill,而非一开始就追求广覆盖。 分发与 API 使用 · 个人用户:下载 Skill 文件夹 → 压缩 → 上传到 Claude. ai 设置,或放入 Claude Code 的 skills 目录 · 组织级别:管理员可全工作区部署,集中管理和自动更新 · API 使用:通过 /v1/skills 端点管理,在 Messages API 中通过 container.skills 参数引入 Anthropic 将 Agent Skills 定位为开放标准——像 MCP 一样,希望它能跨平台使用,不局限于 Claude 生态。 常见问题排查 · Skill 不触发:description 太模糊或缺少触发短语,增加具体用户会说的话作为触发词 · Skill 过度触发:description 范围太宽,添加负向触发条件、缩小范围 · 指令不被遵循:指令太长/太含糊/关键内容被埋没,精简指令、关键信息放最前面、用脚本做确定性校验 · 上下文过大导致变慢:SKILL. md 过大或同时启用太多 Skill,主文件控制在 5000 词以内,详细文档移到 references/ 一个高级技巧特别值得注意:对于关键验证步骤,用脚本(scripts/)替代自然语言指令。代码是确定性的,语言理解不是。 指南下载地址