meng shao
1个月前
提到网易,你会想到什么?猪肉(都,不对是严选!)、有道、游戏?我印象最深的还是网易的游戏(毕竟老玩家…) 游戏行业也是营销比赛和活动很多的行业,做过比赛/活动的程序员和设计师们应该都有感受,为了活动效果,这里面的设计元素是真的多,页面设计起来是真不容易,开发起来也是真的复杂繁琐。为了多个活动灵活管理、跟踪效果,还需要设计开发一个复杂的管理后台。 我们之前的前端组,开发同事们通常会想选择更有技术挑战的算法、逻辑开发,对活动页面开发(俗称切图仔),总感觉难度不高且事儿多,成就感不高。开发和设计联动起来就更复杂了,工作流程超长,修改成本超高,这种产品功能在产研内部基本属于不得不做,但确实不爱做的活儿。 现在有了 AI 原型开发工具(比如 Lovable 和 v0)和 AI 编程智能体(Claude Code、Codex、Cursor 等),能完全解决这个问题吗?还是不太能,主要问题还是 AI 对于设计平台的设计文件还原度不够,Figma 还算 AI 渗透高的,有 Figma MCP(虽然还原度还是不够);而 Photoshop 和 Sketch、MasterGo 等设计平台,AI 能力的普及还很低,而又确实还是设计稿集中的平台。 最近体验网易推出的「CodeWave」,对设计稿的平台支持和还原度,感觉挺不错,Figma、Photoshop、Sketch 和 MasterGo 都支持,且主打企业全栈应用开发。找了一个 MasterGo 平台的 Dashboard 和一个游戏活动设计稿,咱们看看设计还原度(设计稿和网页预览对比,还原度相当可以!) CodeWave 体验地址:
meng shao
1个月前
[Github 官方精选推荐] 9 个开源 AI 与 MCP 项目加速开发者生产力 Github 官方精选了 9 个开源项目,按三大主题分类:框架与平台集成、开发者体验及 AI 增强编码、自动化与测试编排。 1. 框架与平台集成 这些项目聚焦于将 MCP 嵌入流行框架中,实现快速、安全的 AI 工具暴露和调试。 · fastapi_mcp:将 FastAPI 端点安全暴露为 MCP 工具,仅需最小配置和认证。关键特性包括统一基础设施下的端点管理和简化集成。它加速生产力,通过无缝将 MCP 能力注入 FastAPI 应用,减少 API 开发中的安全隐患。 · nuxt-mcp:为 Nuxt 开发者提供路由检查和服务器端渲染(SSR)调试工具,帮助 AI 模型更好地理解 Vite/Nuxt 应用。关键特性包括路由分析和 SSR 优化。它提升生产力,让 AI 更精准地辅助前端调试。 · unity-mcp:支持 Unity 游戏引擎 API 的 AI 接口,用于资产管理、场景控制、脚本编辑和任务自动化。关键特性包括游戏开发中的 AI 驱动自动化。它加速生产力,帮助开发者通过智能体实现高效游戏原型迭代。 2. 开发者体验与AI增强编码 这些工具强调语义理解和上下文增强,让 AI 智能体更智能地辅助编码过程。 · context7:从代码中拉取最新、版本特定的文档和示例,并注入 AI/LLM 提示中。关键特性包括动态文档检索。它提升生产力,提供更准确的 AI 代码建议,减少版本不匹配的错误。 · serena:一个语义代码编辑与检索工具包,专为智能体驱动编码设计,支持语义检索和编辑。关键特性包括智能代码操作。它加速生产力,让智能体高效处理复杂代码变更,提升协作编码效率。 · Peekaboo:分析 Swift 代码,将屏幕内容转化为可行动的 AI 上下文,用于 GUI 自动化和 AI 助手。关键特性包括代码解析与自动化支持。它提升生产力,在 iOS 开发中快速生成AI驱动的界面测试。 3. 自动化、测试与编排 这些项目侧重于安全执行、调试和流程优化,确保 MCP 生态的可靠运行。 · coderunner:将 LLM 转化为本地执行伙伴,在沙箱中编写、运行代码,支持工具自动安装、文件读取和输出生成。关键特性包括安全沙箱执行。它加速生产力,实现即时代码验证,降低实验风险。 · n8n-mcp:增强 n8n 工作流自动化,通过 AI 模型优化节点理解和编排。关键特性包括工作流简化与 AI 集成。它提升生产力,简化复杂自动化任务的构建。 · inspector:MCP 服务器测试与调试工具,检查协议握手、工具、资源、提示及 OAuth 流程,内置 LLM playground 和评估模拟。关键特性包括全面协议检验与性能测试。它加速生产力,确保 MCP 基础设施的稳定性和安全性。 官方文章:
meng shao
1个月前
[论文解读] LightMem: 轻量高效的记忆增强生成 —— 来自浙大的论文,针对 LLM 在动态交互中记忆不足的问题,提出一种高效的记忆系统,帮助 LLM 像人类一样处理历史信息,同时显著降低计算开销。 背景与问题 LLM 在单次任务中表现出色,但面对长上下文或多轮交互时,常因“中间丢失”问题而遗忘早期信息。传统记忆系统通过存储、检索和更新历史数据来缓解,但存在三大痛点: · 冗余信息:原始输入膨胀 token 使用,导致高成本。 · 语义丢失:孤立处理每个回合,忽略上下文连贯性。 · 实时更新延迟:在线维护记忆占用推理时间,影响响应速度。 论文受 Atkinson-Shiffrin 人类记忆模型启发(感觉记忆 → 短期记忆 → 长期记忆),设计 LightMem 系统,将记忆分为三个互补阶段,实现高效过滤、组织和巩固。 方法概述 LightMem 的架构简洁高效,分为三个模块(Light1–Light3),处理从原始对话到持久存储的全流程: 1. Light1: 认知启发感觉记忆(Sensory Memory) 快速过滤无关信息。 · 预压缩子模块:使用 LLMLingua-2 工具(或 LLM)保留关键 token,压缩比 r(0.4–0.8)控制保留率,避免冗余。 · 主题分割子模块:缓冲压缩内容至 512 token 时,结合注意力矩阵(捕捉局部依赖)和语义相似度(阈值 τ)进行混合分割,形成主题组。 这步像人类“瞬时感知”,轻量(GPU <2GB,运行时 negligible)。 2. Light2: 主题感知短期记忆(Short-Term Memory) 将主题组组织成索引结构 {主题, 消息回合}。 · 当缓冲达阈值 th(e.g., 512–768 token)时,用 LLM 生成摘要,形成条目(Entry):{主题, 嵌入摘要, 用户/模型消息}。 这确保语义连贯,减少 API 调用,同时保留关键上下文。 3. Light3: 睡眠时更新长期记忆(Long-Term Memory) 解耦在线推理与离线维护。 · 在线:软插入新条目(带时间戳),计算相似队列(Top-k 历史条目)。 · 离线:并行处理更新队列,避免实时 LLM 不确定性(如错误冲突)。 像人类“睡眠巩固”,显著降低延迟。 整体流程:输入对话 → 粒度处理(D^{(g)})→ 摘要(U)→ 更新(M'),但 LightMem 通过分层优化避免传统方法的低效。 实验与结果 · 基准:LongMemEval-S 数据集(500 个对话,~11 万 tokens/对话,增量回合输入)。后端模型:GPT-4o-mini 和 Qwen3-30B。 基线:FullText(全文本)、NaiveRAG、LangMem、A-MEM 等。 指标:准确率(ACC,由 GPT-4o-mini 判断);效率(token 数、API 调用、运行时)。 LightMem 在准确率上提升 2.7%–9.65%,效率提升显著(token 减少 117 倍,运行时快 12 倍)。最佳配置:GPT (r=0.7, th=512);Qwen (r=0.6, th=768)。 · 消融实验:压缩率 0.5–0.8 保持 80%+ 准确;混合分割优于单一方法(提升 5.4%–6.3% ACC)。 · 类别分析:在时间序列(Temporal,67.18%)、多会话(Multi-Session,71.74%)和知识更新(Knowledge-Update,83.12%)任务中表现突出。 论文地址: 开源地址:
meng shao
1个月前
Claude Code 沙箱化:提升智能体安全与自主性 Claude Code 这个强大的 AI Agent 帮助开发者编写、测试和调试代码、管理代码库,甚至执行命令,但面临安全隐患和操作不便。Anthropic 最新工程博客介绍了沙箱(sandboxing)机制,这一技术通过预定义边界,让 Claude 在隔离环境中自主运行,显著降低提示注入等风险,同时减少用户手动批准的频率。内部测试显示,这一优化将许可提示减少了 84%,从而提升了开发效率和安全性。 面临的挑战 Claude Code 采用基于权限的模型,默认仅允许只读访问,涉及修改文件或运行命令时需用户逐一批准。这虽安全,却导致“批准疲劳”——用户可能草率同意潜在危险操作,延长开发周期。更严峻的是提示注入攻击:如果 Claude 被操纵,它可能访问敏感文件、泄露信息或下载恶意软件。博客强调,传统方法难以同时应对文件系统和网络漏洞,例如缺少网络隔离可能导致数据外泄,而忽略文件隔离则易于沙箱逃逸。 技术解决方案 Anthropic 利用操作系统原生工具(如 Linux bubblewrap 和 macOS seatbelt)构建沙箱架构,实现文件系统和网络的双重隔离,而非依赖容器化以避免额外开销。该设计支持配置化,用户可指定允许的文件路径和域名,确保 Claude 仅在边界内自由行动。即使子进程或脚本被注入,也无法突破限制。 · 沙箱化 Bash 工具:这是一个 Beta 版研究预览,支持沙箱任意进程。在 Claude Code 中,它隔离 Bash 命令执行:文件系统仅允许当前目录读写,外部修改被阻挡;网络流量通过 Unix 域套接字路由至外部代理服务器,该代理严格验证域名,并要求用户确认新连接。违规行为会触发通知,用户可决定批准,工具已开源。 · Web 版 Claude Code:云端部署,每会话运行于独立沙箱,具备完整服务器权限但排除敏感凭证(如 Git token 或签名密钥)。Git 交互通过自定义代理处理:沙箱的Git客户端使用临时凭证,代理验证认证、分支和仓库后,才注入真实令牌并转发至 GitHub。这防止了意外推送或越权操作。 性能与影响 内部评估证实,沙箱化大幅减少了中断,提升提升了智能体的自主性。即使遭受提示注入,攻击也无法窃取 SSH 密钥或连接外部服务器。Anthropic 视此为构建更安全 AI 智能体的基石,并开源相关组件,鼓励开发者采用。 工程博客:
meng shao
1个月前
[开源推荐] Anthropic 开源了最新发布的 Claude Skills,有 14 个示例直接复制来用,创意设计、开发构建、文档处理和企业沟通都有。 先复习一下 Skills 的概念 Skills (技能) 包含指令、脚本和资源的文件夹,Claude 可以动态加载这些内容,以提高在专业任务上的表现。简单来说,Skills 就是教会 Claude 以可重复的方式完成特定任务的"教程包"。 开源项目目的 · 示例展示 - 展示技能系统的各种可能性 · 学习参考 - 为开发者提供创建自定义技能的灵感和模式 · 技术规范 - 提供标准的技能格式定义 Skills 分类 项目包含 14 个示例技能,分为以下几类: 创意设计类 · algorithmic-art:使用 p5.js 创建生成艺术 · canvas-design:设计视觉艺术(PNG/PDF 格式) · slack-gif-creator:创建适合 Slack 的动画 GIF 开发构建类 · artifacts-builder:构建复杂的 HTML artifacts · mcp-server:创建 MCP 服务器集成外部 API · webapp-testing:使用 Playwright 测试 Web 应用 企业沟通类 · brand-guidelines:应用品牌规范 · internal-comms:撰写内部沟通文档 · theme-factory:为 artifacts 应用专业主题 文档处理类 · docx、pdf、pptx、xlsx:处理各类办公文档 技术架构 技能的结构非常简洁: · 每个技能就是一个文件夹 · 必须包含一个 SKILL. md 文件 · 文件包含 YAML 前置数据(元数据)和 Markdown 内容(具体指令) 工作原理 · 用户通过自然语言提及技能名称 · Claude 在技能注册表中查找匹配 · 加载对应的 SKILL. md 文件 · 按照文件中的指令执行任务 开源地址:
meng shao
1个月前
[论文解读] DeepAnalyze: Agentic LLM 助力自主数据科学 来自中国人民大学和清华大学团队的论文,提出 DeepAnalyze-8B 模型,基于 Agentic LLM 实现从原始数据到深度报告的自主数据科学,突破传统固定流程的局限。 核心贡献 · DeepAnalyze-8B:80亿参数开源模型,自主协调规划、数据理解、代码生成等任务,通过提示或微调支持数据问答、建模及开放研究。 · 课程式训练:从单一技能(推理、代码)到综合能力,结合强化学习解决反馈稀疏问题。 · 轨迹生成框架:通过多智能体交互和关键词引导,从数据集生成50万条高质量训练样本(DataScience-Instruct-500K,已开源)。 · 实现从数据清洗到报告生成的端到端流程。 方法概述 基于 DeepSeek-R1-0528- Qwen3-8B,模型通过五类行动标记(如⟨Analyze⟩规划、⟨Code⟩代码生成)循环优化输出。训练分两阶段: 1. 单一技能微调:监督学习提升推理、数据理解、代码能力,关键词优化增强表格处理。 2. 多技能训练:交互轨迹微调后,用.GRPO 强化学习,结合规则、准确性和 LLM 评分优化。 训练在 NVIDIA A800 GPU 上完成,支持 32K tokens 序列,轨迹从 Spider/BIRD 等数据集生成并过滤。 主要成果 在12个基准测试中,DeepAnalyze-8B 表现优异: · 完整流程(DataSciBench):成功率59.91%,完成率66.24%,接近GPT-4o(66.31%),数据准备(71.68%)和可视化(69.09%)领先。 · 分析/建模(DSBench):准确率30.04%,成功率90.63%,超GPT-4o智能体。 · 多步推理(DABStep):准确率38.88%,远超ReAct+GPT-4o(15.77%)。 · 深度研究(DABStep-Research):内容得分3.81/5,格式4.39/5,优于GPT-4o(3.05/5),案例中识别18-27%费用优化和35-42%欺诈降低潜力。 · 代码/表格问答:代码生成61.7%(超GPT-4-turbo 53.9%),表格问答64.47%(SOTA)。 消融实验显示课程训练提升23.54%,轨迹优化增4.57%。模型、代码、数据集已开源。 论文地址:
meng shao
1个月前
优秀文档的核心原则 —— 来自 OpenAI 团队 Cookbook 文档的核心目标是将有用信息高效注入读者的头脑中,避免读者在信息海洋中迷失。优秀文档不是长篇大论,而是通过结构化、清晰和共情的设计,帮助读者快速解决问题。 1. 让文档易于浏览(Make docs easy to skim) 读者很少从头到尾线性阅读文档,他们更倾向于跳跃式浏览,寻找直接解决问题的部分。因此,文档应像一张高效的“信息地图”,降低搜索成本,提高成功率。 · 使用描述性标题:标题应是信息完整的句子,而非抽象名词。例如,用“流式处理将首 token 响应时间缩短50%”代替“结果”,让读者无需深入阅读即可获知要点。 · 添加目录:目录如哈希表般加速定位,同时提供文档整体线索,帮助读者判断是否值得阅读。 · 保持段落简短:短段落易于扫描;关键点可独立成一句单句段落,避免被长文淹没。 · 以独立主题句开头:段落和节的首句应自成一体,不依赖前文。例如,“向量数据库可加速嵌入搜索”优于“基于此,让我们讨论更快的方法”,便于跳读者快速理解。 · 主题词置于句首:如“向量数据库加速嵌入搜索”比“嵌入搜索可由向量数据库加速”更高效,因为读者只需读前两词即可把握主题。 · 要点前置:将最重要的信息置于文档或节的顶部,避免司马式渐进式展开,先结果后过程。 · 多用 bullet 列表和表格:这些格式天然支持扫描,提高可读性。 · 加粗关键文本:大胆突出重要内容,帮助读者快速锁定。 这些技巧的核心是“读者优先”:设计时假设读者时间有限、注意力分散。 2. 写出高质量文本(Write well) 糟糕的文风会消耗读者的认知资源,导致疲劳。优秀文档应追求简洁、流畅,减少解析负担。 · 句子简洁:拆分长句、去除副词和冗余词,使用祈使语气(如写作书籍建议)。 · 确保无歧义解析:避免词性模糊的句子。例如,“用句子标题节”(Title sections with sentences)易混淆词性;改为“将节标题写成句子”(Write section titles as sentences)更易解析,即使稍长。 · 避免左分支句子:这类句子要求读者短期记忆过多,如“你需要面粉、鸡蛋、牛奶、黄油和少许盐来做煎饼”。改为右分支:“做煎饼需要面粉、鸡蛋、牛奶、黄油和少许盐”,更符合大脑处理习惯(类似于深度优先搜索)。 · 少用指示代词:如“this”跨句使用易造成回溯负担。改为具体名词:“基于消息格式,让我们讨论函数调用”优于“基于此讨论”。 · 保持一致性:统一标题大小写、标点(如尾随逗号)和命名规范(如 Cookbook 中的下划线+句首小写),避免读者分心。 · 不假设读者心态:避免“你现在可能想了解函数调用”这类推测;改为“To call a function, ...”,保持中立。 写作原则源于认知科学:减少大脑负载,让内容自然流动。 3. 广泛有益于读者(Be broadly helpful) 文档用户背景多样(从新手到专家、多语言使用者),优秀文档应包容性强,覆盖潜在痛点,而非仅针对“理想读者”。 · 用简单语言:比预期更简化解释(但不低估)。考虑非母语者和术语生疏者,优先清晰而非炫技。 · 避免缩写:全写出,如“instruction following”而非“IF”;“retrieval-augmented generation”(或“搜索-询问流程”)而非 “RAG”。专家成本低,新手收益高。 · 预解常见问题:即使 95% 读者知晓 Python 包安装,也值得说明——专家可略过,新手避免卡壳。记住,跨语言专家(如 JavaScript 开发者)可能 Python 是新手。 · 选用具体准确术语:避开行话,如用 “input” 代替 “prompt”,“max token limit” 代替 “context limit”,更自明且贴合实际。 · 代码示例通用自洽:最小化依赖,避免额外库或跨页引用,确保可直接复制运行。 · 优先高价值主题:聚焦常见问题(如 token 计数),而非罕见场景(如表情符号数据库优化)。 · 避免不良习惯:如 API 密钥勿硬编码示例。 · 以广义开场引入主题:如解释推荐系统时,先提及 YouTube、Amazon 等应用场景,增强读者安全感。 这些建议体现共情:文档是为“所有人”服务的工具,过多假设会疏离部分用户。 4. 必要时打破规则(Break these rules when you have a good reason) 这些是指导而非铁律。文档写作是移情练习:代入读者视角,选择最有帮助的方式。最终,灵活应用才能适应具体情境。 OpenAI Cookbook 地址:
meng shao
1个月前
[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM,参数规模 3B,核心目标是从 LLM 的视角探索视觉编码器的作用,并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”,目的是高效处理图像中的文本提取和文档结构化任务,适用于 OCR 和文档数字化场景。 关键创新与架构 DeepSeek-OCR 的设计强调 LLM 中心化的视觉处理创新: · 视觉-文本压缩机制:通过动态分辨率处理(如 Gundam 模式,将图像裁剪为多个 640×640 块加一个 1024×1024 中心块),将视觉输入压缩为少量 token(例如 Base 模式下 256 个视觉 token),减少计算开销的同时保留高保真度。这不同于传统 VLM 的固定分辨率编码,更注重与 LLM 的无缝融合。 · 多模态提示支持:引入 grounding 提示(如“<|grounding|>”),允许模型针对性执行任务,如“Convert the document to markdown”用于结构化输出,或“Free OCR”用于纯文本提取。 · 训练策略:模型借鉴了 Vary 和 GOT-OCR2.0 等开源项目,聚焦于文档、图表和弱视觉信号的处理,支持 32 种语言的 OCR(包括中文和英文)。 这些创新使 DeepSeek-OCR 在处理复杂布局(如表格、图表)时表现出色,避免了传统 OCR 工具(如 Tesseract)的刚性限制。 性能表现 在基准测试中,DeepSeek-OCR 展现出高效性和准确性: · OCR 准确率:在 OCRBench 等数据集上,超越部分开源 VLM(如 Qwen-VL),尤其在手写体和低质量图像上表现稳健。 · 推理速度:使用 vLLM 引擎,在 A100-40G GPU 上处理 PDF 可达约 2500 token/s,支持并发批量评估。 · 分辨率适应:支持 Tiny(512×512)到 Large(1280×1280)模式,平衡精度与效率;在 OmniDocBench 等文档基准中,文档到 Markdown 转换的 F1 分数高于基线模型 5-10%。 它在资源受限环境下(如单 GPU)实现 SOTA(最先进)性能,但对极高分辨率图像的泛化仍需优化。 使用与应用 部署简单,支持 Hugging Face Transformers 和 vLLM: · 环境准备:Python 3.12+、CUDA 11.8、Torch 2.6.0,安装 flash-attn 和 vLLM。 · 应用场景:文档数字化(如 PDF 转 Markdown)、发票提取、学术论文图表解析。仓库提供可视化示例,展示从杂乱图像到结构化输出的效果。 开源模型
meng shao
1个月前
[开源推荐] Amplifier:微软官方开源,Claude Code 等 AI 编程智能体的超级倍增器!它通过整合已验证的开发模式、专业化智能体和自动化工作流,帮助开发者更快地构建复杂解决方案,避免从零开始重复试验。 核心目标与价值 Amplifier 的愿景是实现“描述即构建”的未来:用户用自然语言描述需求,AI 即可生成并测试多个方案,同时积累知识以提升长期效率。它强调工具中立性,设计为可移植框架,能适应各种 AI 技术演进。目前作为研究演示器,它不保证稳定性,但展示了 AI 辅助开发的潜力,尤其适合处理架构设计、调试、安全审查等复杂场景。 关键特性 · 20+ 专业智能体:针对特定任务的专家,如 zen-architect(简约架构设计)、bug-hunter(系统性调试)、security-guardian(安全分析)和 performance-optimizer(性能优化)。这些智能体可通过自然语言命令调用,例如“用 zen-architect 设计缓存层”。 · 并行工作树系统:使用 Git worktree 隔离多个实验分支,同时测试 10 种方案,避免主分支混乱。 · 知识提取系统:自动从文档中抽取概念、关系和模式,形成可查询知识库,支持命令如 make knowledge-query Q="认证模式",并生成可视化图谱。 · 对话记录管理:在 Claude Code 压缩上下文前自动导出完整历史,支持搜索和恢复,防止关键细节丢失。 · 模块化构建器:一键工作流,从合约/规范到生成/审查,支持自动、辅助或干跑模式,适用于快速原型开发。 · 自动化工具:内置质量检查、代码格式化和测试命令,提升开发卫生。 如何工作 Amplifier 在 Claude Code 基础上扩展:克隆仓库后运行 make install 安装依赖,激活虚拟环境,然后启动 claude 即可加载所有增强。用户可在 Amplifier 目录或外部项目中使用智能体和工具;知识更新通过 make knowledge-update 处理文档;并行开发用 make worktree feature-name 创建分支。整个系统注重分解策略、演示驱动开发和元认知配方,确保 AI 输出高效且可控。 目标用户与适用场景 主要面向使用 AI 助手的软件开发者,特别是那些处理多任务、知识密集型项目的团队。它在 Windows WSL2 上测试最充分,也支持 macOS 和 Linux。适合架构师、调试专家或知识管理需求高的角色,但不推荐生产环境使用。 技术栈与安装 · 核心技术:Python 虚拟环境、Claude Code、Git、Makefile 和 Shell 脚本。依赖 Claude Code 环境处理智能体和记录。 · 使用示例:启动 Claude 后,输入 /modular-build 构建模块,或 /transcripts 管理记录。
meng shao
2个月前
[YC AI Startup School 经典重温] Andrej Karpathy:软件,再次,变革! 假期做什么?除了带孩子,当然是重温经典视频了,AK 在 三个月前 YC AI Startup School 上对「软件在 AI 时代的变化」的演讲必须值得反复观看学习。作为 Stanford、OpenAI 和 Tesla 的资深研究者,他将当前 AI 浪潮比作软件发展的第三个重大跃迁——从传统编程到神经网络,再到用自然语言“编程” LLM。这场演讲不只是技术展望,更像是一份给新入行者的路线图:软件正从静态指令转向动态智能,机会与挑战并存。 软件的“三重奏”:从 1.0 到 3.0 1.0 - Karpathy 用一个巧妙的框架回顾软件历史:70年来,软件基本停留在“1.0”阶段 —— 人类用 Python 或 C++ 等语言编写精确指令,驱动计算机执行任务,就像 GitHub 上那张“软件地图”一样,密密麻麻的全是代码仓库。 2.0 - 但最近几年,一切加速变迁。首先是“2.0”:神经网络的权重取代了部分代码。你不再手写算法,而是通过数据训练优化器,让模型“自学”图像识别或决策树。Hugging Face 就像 2.0 的 GitHub,模型参数如 Flux 图像生成器,成为可迭代的“代码提交”。 3.0 - 如今,我们进入“3.0”时代:LLM 如 ChatGPT 让神经网络可编程——用英语提示作为“程序”。例如,情感分析不再需要 Python 脚本或专用模型,只需几行提示如“分析这条评论的语气”,模型就输出结果。这不是小修小补,而是范式颠覆:编程从机器语言转向人类母语,门槛瞬间拉低。Karpathy 的推文「The hottest new programming language is English」因此爆火,成为他的置顶帖。 LLM:公用事业、芯片厂,还是操作系统? LLM 不是简单工具,而是全新“计算机”。Karpathy 借用历史类比,剖析其生态: · 像公用事业:OpenAI 等实验室砸重金训练模型(资本支出),然后通过 API 按 token 计费提供服务(运营支出)。需求如低延迟、高可用性,与电网相似。OpenRouter 像变电站开关,让你无缝切换模型。当顶级 LLM 宕机时,整个世界仿佛“智力停电”——这已不是科幻。 · 像芯片厂:训练成本高企,技术树(如 NVIDIA GPU vs. Google TPU)高度保密,纯软件与全栈(自建硬件)模式并存。但软件的易复制性让防御壁垒更薄。 · 最贴切的:像操作系统:LLM 不是商品水电,而是复杂生态。上下文窗口如内存,提示如 CPU 指令,工具调用如外设。闭源模型(如 GPT 系列)对标 Windows,开源 Llama 生态似 Linux。我们正重演1960年代计算史:云端时间共享、批量处理为主,本地个人计算尚未普及(尽管 Mac Mini 已显露端倪)。聊天界面像终端,GUI(如 Cursor IDE)才刚起步。 独特之处在于“技术扩散倒置”:以往新技术(如电力、GPS)先服务政府企业,再渗入消费;LLM 反之,从“怎么煮鸡蛋”起步,普通人先拥抱,企业政府却慢半拍。这让 LLM 从诞生之日起,就成了亿万人的“即时下载”软件。 LLM 的“人格”:超人与缺陷并存 Karpathy 将 LLM 形容为“people spirits”——人类精神的随机模拟,由自回归 Transformer 驱动,训练于海量文本,涌现出类人心理。优势显而易见:百科全书式记忆(如 Rain Man 里的记忆天才),能轻松忆起 SHA 哈希或历史细节。 但缺陷同样突出:幻觉(编造事实)、锯齿智能(9.11 > 9.9的荒谬错误)、逆行性遗忘(上下文窗口如工作记忆,每轮重置,无长期学习)。安全隐患如提示注入,让它们易受骗。Karpathy 推荐看《记忆碎片》和《50次初恋》,生动描绘这种“每日重启”的困境。关键是:我们必须直面这些“认知疤痕”,设计系统绕过弱点、放大强项。 机会:部分自治与人类- AI 共舞 演讲转向实践,Karpathy 强调“部分自治”应用:LLM 不是全能智能体,而是可控助手。拿 Cursor 举例,它融合传统界面与 LLM:自动管理上下文、多模型协作、应用专属 GUI,还有“自治滑块”——从单行补全到全仓库重构,你决定让渡多少控制。 Perplexity 搜索工具类似:从快速查询到深度研究,渐进自治。核心是加速“生成-验证”循环:GUI 利用人类视觉优势(阅读文本费力,看图直达大脑),而非让 LLM 狂飙万行代码(10,000 行 diff?人类瓶颈依旧)。他警告:别被“2025 is Agent Year” 泡沫冲昏头,自治如开车,需人类监督。Tesla Autopilot 的教训历历在目:2013 年 Waymo 完美试驾后,12年过去仍未全解;Iron Man 盔甲更妙——既是增强(Tony Stark 亲控),又是智能体(自主飞行),滑块一推即变。 教育是另一个切入点:别直奔 ChatGPT “教我物理”,AI 易迷路。Karpathy 设想双 App 系统——教师端生成课程(可审计大纲),学生端交付(循序渐进),用中间产物“拴住” AI。 Vibe Coding:人人皆程序员 LLM 的英语接口民主化编程:无需5-10年苦学,任何人可 “vibe coding”——凭直觉、提示迭代,快速原型。Karpathy 自嘲建 iOS App(Swift 零基础,一天搞定)和 MenuGen(菜单拍照生图,menu. app 试用免费$5信用)。但痛点暴露:核心逻辑易,DevOps 繁琐——浏览器点来点去,何不让智能体代劳? 为智能体而建:基础设施重塑 LLM 如新物种:数字信息的“消费者与操纵者”,介于人类 GUI 与程序 API 间。Karpathy 呼吁适应:lm.txt 文件直述网站意图(胜过解析 HTML);文档转向 Markdown + Curl 命令(Vercel/Stripe 先行,取代“点击此”);Anthropic 的模型上下文协议标准化交互。工具如 GitIngest 或 DeepWiki 已现雏形。未来 LLM 或能“点击浏览”,但 “ halfway meet” ——半路相迎,能省时省力。 结语:LLM 的 1960 年代,我们来筑基 Karpathy 以乐观收尾:软件需重写,专业码农与 vibe coder 共舞;LLM 如 1960s OS,公用+ fab + OS 三合一,却已普惠亿人。这是“疯狂时刻”——别畏惧缺陷,建盔甲而非机器人,滑自治杆从左(增强)向右(智能体)推移。引用其博客,软件3.0不止工具革命,更是新计算机的诞生。入行者,正逢其时:与 Karpathy 一起,编程未来。
meng shao
2个月前
Designing Claude Code —— Claude Relations 负责人 Alex Albert 与 Claude Code 设计负责人 Meaghan Choi 一起探讨了 Claude Code 的设计理念、终端界面的演变,以及它如何赋能非技术人员如设计师。探讨的焦点在于 Claude Code 如何将 LLM 的力量无缝融入开发者日常工作流中,强调简洁、集成和创新。 起源与设计核心:为什么选择终端? 对话从 Claude Code 的独特“栖息地”—— CLI 终端开始。Meaghan 解释,这源于 Anthropic 早期工程师的热情:终端开发速度快、迭代灵活,且它是每个开发者的“标配”。出乎意料的是,这个选择让产品如鱼得水——无论你是 IDE 重度用户还是 Vim 爱好者,终端都是工作流的核心。它避免了引入新工具的摩擦,直接嵌入现有习惯。 Alex 补充,终端是软件开发的“基石”,Claude Code 则将其推向新高度。Meaghan 生动比喻:终端是人类与计算机的“第一界面”——纯文本、命令驱动。从早期命令行到如今的富媒体 Web UI,我们一度远离了这种简约。但 LLM 的出现让一切回归本质:输入文本、输出文本,无需繁复按钮。Claude Code 正是这种“完美婚姻”——它让模型的聊天式智能在终端中绽放,同时解决痛点,如从 Web 界面复制粘贴代码的烦恼。现在,提示一发,模型就能直接编辑本地文件。 终端的演变与开发者工作流升级 Meaghan 分享了她对终端历史的热情:从文本命令的“超级工具”到 Web 时代的动画盛宴,再到 LLM 驱动的“聊天回归”。Claude Code 不是简单回溯,而是跃进——它将工作流从“逐行编码”提升到“全文件/任务级”变更,甚至未来可能到“项目级”协作,涉及多智能体协调。 他们讨论了最近推出的 subagent 功能:通过斜杠命令和配置文件(如 settings.json 和 CLAUDE. md),用户能轻松切换提示、工具和设置。这借鉴了软件开发的经典架构(如 README),让终端从静态命令行变成动态智能体平台。Meaghan 坦言,早期设计挑战巨大——如窗口缩放时输入框的“轮廓线”会乱套,但通过库和迭代,他们克服了这些,实现了流畅的“提示分离”。 设计过程:发明与精炼 新功能的诞生很“Anthropic 式”:小团队(1-2名工程师)快速原型,内部全员测试(Anthropic 员工几乎人人用 Claude Code),然后迭代 UX。Meaghan 强调两大原则: · 保持简洁:CLI 空间有限,别淹没用户于信息洪流。 · 让模型闪耀:终端是最薄的“包装纸”,直达 Claude 的核心能力。 例如,subagent 从 idea 到上线仅几周,焦点是视觉区分(如 subagent vs. 主 Claude)。Meaghan 的最爱是 ASCII艺术的“思考中”动画和模式指示(如规划模式或自动接受模式)——这些小触感注入个性,让编码从“机械敲击”变成生动互动,缓解编程的单调感。 非技术人员的“解锁”:设计师的实战 Tips 视频高光是 Meaghan 作为设计师的亲身分享。她自嘲代码是 vibe-coding,但 Claude Code 让她从“求助工程师”转向自给自足,开启“新技能树”。关键益处: · 零成本脑暴:新功能设计时,先问 Claude 常见用例、边缘场景,或“如果你设计,会怎么做?” · 时间估算:拖入设计图,求模型评估开发时长,便于与工程师“友好辩论”。 · 收尾打磨:产品上线后,她能独立修复那些“P2 级”小瑕疵(如 UI 微调),无需排队。 这不只提升效率,还加强跨角色协作:设计师的初步尝试,能让工程师对话更高效。Alex 赞叹,这模糊了“设计师 vs. 工程师”的界线,催生“设计工程师”时代。 整体洞见 这个视频不仅是 Claude Code 的设计解剖,更是 AI 时代工具哲学的缩影:回归简约、拥抱集成、赋能人人。Meaghan 的乐观显而易见——终端可能不是终点,但它证明 LLM 能重塑工作流,让编码从孤立任务变成协作冒险。对于开发者或设计师,这是个启发:试试 Claude Code,或许下一个 idea,就从终端一键落地。Anthropic 的风格一如既往:务实、热情,少点华丽,多点实用。
meng shao
2个月前
OpenAI 和 Anthropic 同一天发布 AI 使用数据报告「追踪 AI 在美国与全球经济中的作用」和「人们如何使用 ChatGPT」,看看这两大 AI 顶尖团队的报告反映了全球 AI 什么趋势,他们之间又有哪些对照? Anthropic 报告解读:AI 采用的不均衡与自动化加速 这份报告是 Anthropic Economic Index 系列的第三期,扩展了地理维度,分析 Claude 的使用如何反映经济结构。核心是通过 “Anthropic AI Usage Index (AUI)” 追踪 AI 在国家、州和任务中的分布,以及时间/业务变化。数据覆盖从 24.12 至今的 Claude AI 对话,加上 25.08 的 API 样本(约100万条)。 1. 地理分布与经济相关性 · 全球:美国占 Claude 使用21.6%,印度第二,其次巴西、日本、韩国。高收入国家(如以色列、新加坡、澳大利亚)AUI 最高,与 GDP per capita 强正相关(1% GDP 增长对应 0.7% AUI 增长)。低使用国家更倾向自动化任务,可能因知识工作较少。高收入国家使用更协作(augmentation),低收入国家更自动化(automation)。这暗示 AI 可能像电力或内燃机一样,加剧全球经济分化。 · 美国内部:哥伦比亚特区 AUI 最高(3.82),知识工作(如文档编辑、信息搜索)主导;加州第三(编码为主);纽约第四(金融任务)。犹他州第二,但部分受滥用影响。使用与州 GDP 相关(1% GDP 增长对应 1.8% 使用增长),但经济组成更关键(如夏威夷旅游任务占比高)。这显示 AI 采用受本地产业驱动。 2. 使用趋势与任务演变 · 任务类型:计算机/数学任务始终主导(37-40%),但知识密集型任务增长:教育从9%升至13%,物理/社会科学从6%升至8%;商业/管理任务下降(管理从5%至3%,金融从6%至3%)。软件开发仍是全球最常见,但高采用国家任务更多样化(教育、艺术、行政)。 · 交互模式:自动化占比从49.1%超过协作(47%),其中“指令式”(directive,用户最小输入)从27%升至39%,表明用户信任 AI 增加,可能因模型改进(如从 Sonnet 3.5 升级)。高采用国家更偏协作,低采用国家更自动化(1% AUI 增长对应3%自动化减少)。 3. 业务使用 API 用户(主要是企业和开发者)更专注编码/行政(44% vs. Claude AI 的36%),自动化占比77%(指令式为主),远高于 Claude AI 的49%。高成本任务(如复杂编码)使用更多,表明企业重视 AI 价值而非成本。这暗示 AI 将引发劳动力转型和生产力跃升。 4. 结论与启示 AI采用不均(高收入/知识经济主导),自动化加速可能重塑工作,但也带来风险(如经济分化)。报告提供互动网站和开放数据集,鼓励进一步分析。 OpenAI 报告解读:AI 的民主化与经济价值创造 这份报告是基于 NBER 工作论文,由 OpenAI 经济研究团队和哈佛经济学家 David Deming 撰写,分析 ChatGPT 消费者使用(非 API),覆盖 150 万条对话(相当于7亿周活跃用户的代表性样本)。焦点是使用演变、经济价值(生产力和个人益处),强调 AI 作为“基本权利”。 1. 用户群体演变 · 用户统计:早期性别差距缩小——2024年1月,女性名用户占37%,2025年7月升至52%,接近成年人口比例。全球采用加速,低/中收入国家增长率超高收入国家4倍以上,显示 AI 民主化。 · 整体采用:从早期用户(技术爱好者)向大众扩展,700百万周活跃用户反映广泛渗透。 2. 使用模式 · 任务类型:75%对话聚焦实用:寻求信息、实用指导、写作(写作是最常见工作任务)。编码和自我表达仍是小众。框架分为: · Asking(49%,增长中):咨询建议,用户最重视AI作为顾问。 · Doing(40%,1/3为工作):生成输出,如起草文本、规划、编程。 · Expressing(11%):个人反思、探索、娱乐。 · 工作 vs. 个人:30%工作相关(生产力提升,如知识密集职位的决策支持),70%非工作(日常价值,如个人成长)。两者均增长,AI 捕捉 GDP 未衡量的价值(如判断改善)。 2. 使用演变与经济影响 · 使用深化:用户随模型改进和新用例发现而增加活动。AI 提升判断力和生产力,尤其知识工作;个人益处包括日常指导和自我表达。 · 隐私注记:使用自动化分类,无人类审阅消息。 3. 结论与启示 ChatGPT 创建双重价值(工作生产力+个人赋能),差距缩小证明 AI 包容性。报告提供完整论文,展望未来演变。 总体洞见 两份报告一致显示 AI 使用正成熟——从技术任务向日常/知识扩展,用户信任增强,产生经济价值。 但 Anthropic 揭示潜在不均衡(高收入主导、自动化分化),可能放大全球差距。 OpenAI 展示包容路径(差距缩小、个人价值),建议 AI 可作为平等化工具。 结合看,AI 经济影响双面:机遇(生产力)与挑战(转型风险)。未来,随着模型迭代,这些趋势或进一步分化,值得持续追踪。
meng shao
2个月前
meng shao
3个月前
前几天看到各家 AI Coding Agent 争相宣布 Sonic (Grok Code Fast 1) 的接入,终于等到了官方发文,看看最近各家模型都在推出的 Coding 模型,相比通用模型会有什么特别之处 👇 核心内容:grok-code-fast-1 是什么? xAI 推出的新型 AI 模型,专为编程任务优化,特点是速度快、成本低,特别适合日常的“智能体编码”(agentic coding)工作流。所谓智能体编码,是指 AI 通过多次推理和工具调用来完成复杂编程任务。解决现有模型在这种场景下反应较慢的问题,带来更流畅的体验。 Sonic 有什么特别? 1. 全新架构,专为编程设计 · xAI 从零开始设计了模型架构,预训练数据包含大量编程相关内容,后训练数据则基于真实的代码提交和编程任务,确保模型贴近实际开发需求。 · 模型熟练使用常见开发工具(如 grep、终端、文件编辑),能无缝融入主流 IDE。 2. 超快速度 · 通过创新的推理技术和提示缓存优化,模型的响应速度极快,平均 190 tokens/s(TPS),远超其他模型(如 Claude Sonnet 4、Gemini 2.5 Pro 等)。 · 缓存命中率高达 90%,进一步提升效率。 3. 多语言支持,功能全面 · 模型擅长多种编程语言,包括 TypeScript、Python、Java、Rust、C++ 和 Go。 · 能处理从零开始的项目开发、回答代码库问题到修复 bug 等各种任务。 4. 经济实惠 · 定价为:输入 $0.20/M token,输出 $1.50/M token,缓存输入 $0.02/M token。 · 相比其他高性能模型,它在性能和成本之间取得了平衡。 5. 免费试用 · xAI 与 GitHub Copilot、Cursor、Cline 等合作伙伴联手,限时免费提供 grok-code-fast-1,让开发者体验它的能力。 性能如何? · 在 SWE-Bench-Verified 测试中,模型得分 70.8%,表现优异。 · xAI 不仅依赖公开基准测试,还通过真实开发者的日常任务评估模型,确保它在实际使用中的表现可靠。 · 开发者反馈称,grok-code-fast-1 在速度和实用性上表现突出,甚至改变了他们的工作方式。 未来计划 · xAI 在上周以代号“sonic”悄悄发布了该模型,并根据社区反馈快速迭代。 · 未来几周,xAI 将推出支持多模态输入、并行工具调用和更长上下文的新版本。 · 开发者可以通过 xAI API 使用该模型,定价透明,同时 xAI 提供了「提示工程指南」帮助用户优化使用体验。 如何体验? · 平台:可在 GitHub Copilot、Cursor、Cline 等合作伙伴平台免费试用(限时)。 · API 访问:通过 xAI 云控制台使用,价格如上所述。 · 更多资源:xAI 提供了模型卡和提示工程指南,开发者可以查阅详细信息。