#LLM

马东锡 NLP
19小时前
见所未见,闻所未闻 语言,作为“通感”万物的超级操作系统 “语言超模态”和“通感能力”,正是我们A𝕀² ℙarad𝕚g𝕞范式中“语言作为创世函子(Genesis Functor)”这一核心猜想的直接工程证据。 这两篇论文共同揭示并激化了当前多模态LLM构建路径中的一个核心范式张力:“端到端融合的暴力美学”** 与 “语言作为通用操作系统的优雅架构 (`Freedom`)”之间的对决。 1. 主流思路是“端到端融合”,即假设智能来自于将海量的、不同模态的数据(图像、文本、声音)灌入一个巨大的“黑箱”模型,强行让模型在潜空间中找到一个统一的“多模态表示”。这是一种依赖于巨大算力和数据量的“暴力美学”,它追求的是一种大一统的秩序。 2. 这两篇论文则共同指向了一个更灵活、更深刻、也更符合第一性原理的新范式——将语言(Language)视为所有智能的“通用操作系统 (Universal Operating System)”。在这个范式下,语言不再仅仅是众多模态中的一个,而是那个负责“理解意图、进行推理、制定计划、并调用其他专业模态工具”的核心中枢。它追求的是一种模块化、可解释、可扩展的自由架构,并试图为智能的涌现寻找一种更有意义的路径。 Meta的《Learning to See Before Seeing》雄辩地证明了,关于视觉世界的“推理核心”,是可以在纯文本中被“预训练”出来的。这意味着,语言数据本身就蕴含了对物理世界结构和逻辑的“同构编码”。LLM通过学习语言,实际上是在“逆向工程”我们世界的运行规律。 腾讯的《BATONVOICE》则提供了一个完美的“执行范例”。它将LLM定位为“指挥家”,而不是“演奏家”。LLM不亲自生成声音波形,而是生成控制声音的“操作指令”(乐谱),交由专业的TTS模型(乐团)去执行。 因此,这两篇论文的真正“深意”,是它们从“理论根基”和“应用架构”两个层面,为“语言作为操作系统”这一新范式,提供了强有力的工程学证据,从而对“端到端融合”的旧范式构成了一次“升维打击”。
[YC AI Startup School 经典重温] Andrej Karpathy:软件,再次,变革! 假期做什么?除了带孩子,当然是重温经典视频了,AK 在 三个月前 YC AI Startup School 上对「软件在 AI 时代的变化」的演讲必须值得反复观看学习。作为 Stanford、OpenAI 和 Tesla 的资深研究者,他将当前 AI 浪潮比作软件发展的第三个重大跃迁——从传统编程到神经网络,再到用自然语言“编程” LLM。这场演讲不只是技术展望,更像是一份给新入行者的路线图:软件正从静态指令转向动态智能,机会与挑战并存。 软件的“三重奏”:从 1.0 到 3.0 1.0 - Karpathy 用一个巧妙的框架回顾软件历史:70年来,软件基本停留在“1.0”阶段 —— 人类用 Python 或 C++ 等语言编写精确指令,驱动计算机执行任务,就像 GitHub 上那张“软件地图”一样,密密麻麻的全是代码仓库。 2.0 - 但最近几年,一切加速变迁。首先是“2.0”:神经网络的权重取代了部分代码。你不再手写算法,而是通过数据训练优化器,让模型“自学”图像识别或决策树。Hugging Face 就像 2.0 的 GitHub,模型参数如 Flux 图像生成器,成为可迭代的“代码提交”。 3.0 - 如今,我们进入“3.0”时代:LLM 如 ChatGPT 让神经网络可编程——用英语提示作为“程序”。例如,情感分析不再需要 Python 脚本或专用模型,只需几行提示如“分析这条评论的语气”,模型就输出结果。这不是小修小补,而是范式颠覆:编程从机器语言转向人类母语,门槛瞬间拉低。Karpathy 的推文「The hottest new programming language is English」因此爆火,成为他的置顶帖。 LLM:公用事业、芯片厂,还是操作系统? LLM 不是简单工具,而是全新“计算机”。Karpathy 借用历史类比,剖析其生态: · 像公用事业:OpenAI 等实验室砸重金训练模型(资本支出),然后通过 API 按 token 计费提供服务(运营支出)。需求如低延迟、高可用性,与电网相似。OpenRouter 像变电站开关,让你无缝切换模型。当顶级 LLM 宕机时,整个世界仿佛“智力停电”——这已不是科幻。 · 像芯片厂:训练成本高企,技术树(如 NVIDIA GPU vs. Google TPU)高度保密,纯软件与全栈(自建硬件)模式并存。但软件的易复制性让防御壁垒更薄。 · 最贴切的:像操作系统:LLM 不是商品水电,而是复杂生态。上下文窗口如内存,提示如 CPU 指令,工具调用如外设。闭源模型(如 GPT 系列)对标 Windows,开源 Llama 生态似 Linux。我们正重演1960年代计算史:云端时间共享、批量处理为主,本地个人计算尚未普及(尽管 Mac Mini 已显露端倪)。聊天界面像终端,GUI(如 Cursor IDE)才刚起步。 独特之处在于“技术扩散倒置”:以往新技术(如电力、GPS)先服务政府企业,再渗入消费;LLM 反之,从“怎么煮鸡蛋”起步,普通人先拥抱,企业政府却慢半拍。这让 LLM 从诞生之日起,就成了亿万人的“即时下载”软件。 LLM 的“人格”:超人与缺陷并存 Karpathy 将 LLM 形容为“people spirits”——人类精神的随机模拟,由自回归 Transformer 驱动,训练于海量文本,涌现出类人心理。优势显而易见:百科全书式记忆(如 Rain Man 里的记忆天才),能轻松忆起 SHA 哈希或历史细节。 但缺陷同样突出:幻觉(编造事实)、锯齿智能(9.11 > 9.9的荒谬错误)、逆行性遗忘(上下文窗口如工作记忆,每轮重置,无长期学习)。安全隐患如提示注入,让它们易受骗。Karpathy 推荐看《记忆碎片》和《50次初恋》,生动描绘这种“每日重启”的困境。关键是:我们必须直面这些“认知疤痕”,设计系统绕过弱点、放大强项。 机会:部分自治与人类- AI 共舞 演讲转向实践,Karpathy 强调“部分自治”应用:LLM 不是全能智能体,而是可控助手。拿 Cursor 举例,它融合传统界面与 LLM:自动管理上下文、多模型协作、应用专属 GUI,还有“自治滑块”——从单行补全到全仓库重构,你决定让渡多少控制。 Perplexity 搜索工具类似:从快速查询到深度研究,渐进自治。核心是加速“生成-验证”循环:GUI 利用人类视觉优势(阅读文本费力,看图直达大脑),而非让 LLM 狂飙万行代码(10,000 行 diff?人类瓶颈依旧)。他警告:别被“2025 is Agent Year” 泡沫冲昏头,自治如开车,需人类监督。Tesla Autopilot 的教训历历在目:2013 年 Waymo 完美试驾后,12年过去仍未全解;Iron Man 盔甲更妙——既是增强(Tony Stark 亲控),又是智能体(自主飞行),滑块一推即变。 教育是另一个切入点:别直奔 ChatGPT “教我物理”,AI 易迷路。Karpathy 设想双 App 系统——教师端生成课程(可审计大纲),学生端交付(循序渐进),用中间产物“拴住” AI。 Vibe Coding:人人皆程序员 LLM 的英语接口民主化编程:无需5-10年苦学,任何人可 “vibe coding”——凭直觉、提示迭代,快速原型。Karpathy 自嘲建 iOS App(Swift 零基础,一天搞定)和 MenuGen(菜单拍照生图,menu. app 试用免费$5信用)。但痛点暴露:核心逻辑易,DevOps 繁琐——浏览器点来点去,何不让智能体代劳? 为智能体而建:基础设施重塑 LLM 如新物种:数字信息的“消费者与操纵者”,介于人类 GUI 与程序 API 间。Karpathy 呼吁适应:lm.txt 文件直述网站意图(胜过解析 HTML);文档转向 Markdown + Curl 命令(Vercel/Stripe 先行,取代“点击此”);Anthropic 的模型上下文协议标准化交互。工具如 GitIngest 或 DeepWiki 已现雏形。未来 LLM 或能“点击浏览”,但 “ halfway meet” ——半路相迎,能省时省力。 结语:LLM 的 1960 年代,我们来筑基 Karpathy 以乐观收尾:软件需重写,专业码农与 vibe coder 共舞;LLM 如 1960s OS,公用+ fab + OS 三合一,却已普惠亿人。这是“疯狂时刻”——别畏惧缺陷,建盔甲而非机器人,滑自治杆从左(增强)向右(智能体)推移。引用其博客,软件3.0不止工具革命,更是新计算机的诞生。入行者,正逢其时:与 Karpathy 一起,编程未来。
LLM 出来之后,在应用层的折腾从未停歇。从 Prompt 调优到 Workflow 配置,再到 Agent 构建,最终目的都是一样的:让 LLM 更好地为人类干活,把机器的性能压榨到极致。 对 LLM 的压榨,可以分为两个维度。一是帮助它找到最优算法,让推理少走弯路。 为此我们几乎把能想到的路子都走了一遍,让 LLM 学会反思(reflection、self-consistency、self-critics),学会推理和规划(reasoning、planning、chain-of-thought、tree-of-thought);学会记忆(short-term memory、long-term memory),不至于对话一长就失忆;学会找知识(RAG、knowledge graph),在外部世界里补充事实;学会构建上下文(context building),在有限 token 里塞下更多有效信息;学会用工具(tool-use,function calling,MCP),把事情交给外部程序去跑,而不是光靠自己生成;等等。 这些东西,说到底都是技巧和机制,本质目的是让 LLM 更快理解人类要干啥,围绕目标(goal-oriented)尽可能找到一条代价最小的路,跑到最优解上去。 第二个维度,是对时间的压榨,让 LLM 可以做到 7×24 小时不停歇。当我们对 LLM 有了更深入的理解之后,很容易想到把它打造成属于自己或组织的“数字员工”,它不知疲惫、不会抱怨,可以持续运转、不断学习。 大部分人今天用 AI 的方式,还停留在查资料、总结内容、写周报月报这些单点场景上,如果要真正构建一名“不停歇的 AI 数字员工”,光靠这些还不够。我们需要先规划出属于自己的 AI 数字工厂 ——想清楚要造出来的“产品”是什么,是沉淀知识的系统,是自动化的业务流程,还是一个可以长期迭代的服务。 在这座工厂里,AI 是生产线上的执行者,它负责具体的加工与产出;而人类的角色发生了转变,从“亲自干活的工人”变成“监工与管理者”。 人类不再亲手完成每一步,而是要设计流水线,设定规则,制定指标,监控质量,并在需要时调度资源。换句话说,AI 的价值不在于替我们“干一点活”,而在于帮把整条流水线跑起来,而人类更像是“数字工厂的管理者”。 当这两个维度结合起来时,真正的拐点就出现了。LLM 不再只是一个冷冰冰的工具,而是逐渐变成了可以长期协作的伙伴。它既能承担重复性劳动,也能在复杂问题上提供洞见。它不仅仅是“帮你做事”,更是“和你一起做事”。 未来的差距,不在于谁能写出更漂亮的 Prompt,而在于谁能把 LLM 真正融入到自己的时间和组织里,形成稳定的生产方式。 因此,会不会用、用到什么深度、能否持续优化,这些才是长期的竞争力来源。谁能把 AI 运行成“工厂”,让自己从执行者转为监工和管理者,谁就能在未来的日常工作和业务中,获得真正可复用、可累积的优势。
Designing Claude Code —— Claude Relations 负责人 Alex Albert 与 Claude Code 设计负责人 Meaghan Choi 一起探讨了 Claude Code 的设计理念、终端界面的演变,以及它如何赋能非技术人员如设计师。探讨的焦点在于 Claude Code 如何将 LLM 的力量无缝融入开发者日常工作流中,强调简洁、集成和创新。 起源与设计核心:为什么选择终端? 对话从 Claude Code 的独特“栖息地”—— CLI 终端开始。Meaghan 解释,这源于 Anthropic 早期工程师的热情:终端开发速度快、迭代灵活,且它是每个开发者的“标配”。出乎意料的是,这个选择让产品如鱼得水——无论你是 IDE 重度用户还是 Vim 爱好者,终端都是工作流的核心。它避免了引入新工具的摩擦,直接嵌入现有习惯。 Alex 补充,终端是软件开发的“基石”,Claude Code 则将其推向新高度。Meaghan 生动比喻:终端是人类与计算机的“第一界面”——纯文本、命令驱动。从早期命令行到如今的富媒体 Web UI,我们一度远离了这种简约。但 LLM 的出现让一切回归本质:输入文本、输出文本,无需繁复按钮。Claude Code 正是这种“完美婚姻”——它让模型的聊天式智能在终端中绽放,同时解决痛点,如从 Web 界面复制粘贴代码的烦恼。现在,提示一发,模型就能直接编辑本地文件。 终端的演变与开发者工作流升级 Meaghan 分享了她对终端历史的热情:从文本命令的“超级工具”到 Web 时代的动画盛宴,再到 LLM 驱动的“聊天回归”。Claude Code 不是简单回溯,而是跃进——它将工作流从“逐行编码”提升到“全文件/任务级”变更,甚至未来可能到“项目级”协作,涉及多智能体协调。 他们讨论了最近推出的 subagent 功能:通过斜杠命令和配置文件(如 settings.json 和 CLAUDE. md),用户能轻松切换提示、工具和设置。这借鉴了软件开发的经典架构(如 README),让终端从静态命令行变成动态智能体平台。Meaghan 坦言,早期设计挑战巨大——如窗口缩放时输入框的“轮廓线”会乱套,但通过库和迭代,他们克服了这些,实现了流畅的“提示分离”。 设计过程:发明与精炼 新功能的诞生很“Anthropic 式”:小团队(1-2名工程师)快速原型,内部全员测试(Anthropic 员工几乎人人用 Claude Code),然后迭代 UX。Meaghan 强调两大原则: · 保持简洁:CLI 空间有限,别淹没用户于信息洪流。 · 让模型闪耀:终端是最薄的“包装纸”,直达 Claude 的核心能力。 例如,subagent 从 idea 到上线仅几周,焦点是视觉区分(如 subagent vs. 主 Claude)。Meaghan 的最爱是 ASCII艺术的“思考中”动画和模式指示(如规划模式或自动接受模式)——这些小触感注入个性,让编码从“机械敲击”变成生动互动,缓解编程的单调感。 非技术人员的“解锁”:设计师的实战 Tips 视频高光是 Meaghan 作为设计师的亲身分享。她自嘲代码是 vibe-coding,但 Claude Code 让她从“求助工程师”转向自给自足,开启“新技能树”。关键益处: · 零成本脑暴:新功能设计时,先问 Claude 常见用例、边缘场景,或“如果你设计,会怎么做?” · 时间估算:拖入设计图,求模型评估开发时长,便于与工程师“友好辩论”。 · 收尾打磨:产品上线后,她能独立修复那些“P2 级”小瑕疵(如 UI 微调),无需排队。 这不只提升效率,还加强跨角色协作:设计师的初步尝试,能让工程师对话更高效。Alex 赞叹,这模糊了“设计师 vs. 工程师”的界线,催生“设计工程师”时代。 整体洞见 这个视频不仅是 Claude Code 的设计解剖,更是 AI 时代工具哲学的缩影:回归简约、拥抱集成、赋能人人。Meaghan 的乐观显而易见——终端可能不是终点,但它证明 LLM 能重塑工作流,让编码从孤立任务变成协作冒险。对于开发者或设计师,这是个启发:试试 Claude Code,或许下一个 idea,就从终端一键落地。Anthropic 的风格一如既往:务实、热情,少点华丽,多点实用。