meng shao
2个月前
[开源推荐] Anthropic 开源了最新发布的 Claude Skills,有 14 个示例直接复制来用,创意设计、开发构建、文档处理和企业沟通都有。 先复习一下 Skills 的概念 Skills (技能) 包含指令、脚本和资源的文件夹,Claude 可以动态加载这些内容,以提高在专业任务上的表现。简单来说,Skills 就是教会 Claude 以可重复的方式完成特定任务的"教程包"。 开源项目目的 · 示例展示 - 展示技能系统的各种可能性 · 学习参考 - 为开发者提供创建自定义技能的灵感和模式 · 技术规范 - 提供标准的技能格式定义 Skills 分类 项目包含 14 个示例技能,分为以下几类: 创意设计类 · algorithmic-art:使用 p5.js 创建生成艺术 · canvas-design:设计视觉艺术(PNG/PDF 格式) · slack-gif-creator:创建适合 Slack 的动画 GIF 开发构建类 · artifacts-builder:构建复杂的 HTML artifacts · mcp-server:创建 MCP 服务器集成外部 API · webapp-testing:使用 Playwright 测试 Web 应用 企业沟通类 · brand-guidelines:应用品牌规范 · internal-comms:撰写内部沟通文档 · theme-factory:为 artifacts 应用专业主题 文档处理类 · docx、pdf、pptx、xlsx:处理各类办公文档 技术架构 技能的结构非常简洁: · 每个技能就是一个文件夹 · 必须包含一个 SKILL. md 文件 · 文件包含 YAML 前置数据(元数据)和 Markdown 内容(具体指令) 工作原理 · 用户通过自然语言提及技能名称 · Claude 在技能注册表中查找匹配 · 加载对应的 SKILL. md 文件 · 按照文件中的指令执行任务 开源地址:
ginobefun
2个月前
刚集中看了下 DeepSeek-OCR 模型的论文和报导,发现这个模型名字虽然叫 OCR,但它真正目标其实是想解决当前模型在处理长文本时面临的算力噩梦。传统 AI 处理文本时,计算量会随文本长度平方级增长,成本极高。 DeepSeek 的思路是跳出这个困局,不再让 AI 逐字「阅读」一维文本,而是让它「观看」被渲染成二维图像的文本。这就是他们提出的「上下文光学压缩」范式,利用一图胜千言的原理,将海量文本压缩成极少量的视觉 Token。 模型的核心是编码器 DeepEncoder,它采用「先局部、再压缩、后全局」的三阶段设计:先用窗口注意力高效处理高分辨率图像的局部细节,再通过一个 16 倍卷积压缩器大幅减少 Token 数量,最后用全局注意力来理解这些被浓缩后的精华 Token。解码器则是一个 3B MoE 模型,负责从这些视觉 Token 中重建出原始文字,从而实现了一种全新的文本压缩范式。 这个方法的效率极为惊人。在 10 倍压缩率下,解码准确率高达 97%。在 OmniDocBench 基准上,它使用不到 800 个视觉 Token,就大幅超越了平均使用近 7000 个 Token 的 MinerU2.0,而一块 A100 显卡每天就能处理超过 20 万页数据。 因此,这不仅是一个 SOTA 级别的 OCR 工具,还被认为是「AI 的 JPEG 时刻」,为 AI 的输入和记忆架构打开了新路径。连 Karpathy 都表示,这也许证明了像素是比文本更好的输入方式,带来了更短的上下文窗口和更高的效率。