宝玉
2个月前
AI 大神Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高,你可能以为他会说:“哇,这个OCR模型真厉害,识别率又提升了!” 但他没有。 相反,他几乎是挥了挥手说:“它是个不错的OCR模型,但这不重要。” 真正让他兴奋的,是这篇论文引出的一个更具颠覆性的想法:我们是不是从一开始就喂错“语料”给AI了? Karpathy的核心观点是:也许,大型语言模型(LLM)的输入端,根本就不应该是“文本”(Text),而应该永远是“像素”(Pixels)。 这个想法听起来有点绕。我们明明有纯文本,为什么非要先把它“渲染”成一张图片,再喂给AI去看呢? Karpathy给出的理由是这样的: 1. 首先,这是个效率问题。 我们现在用“文本”喂AI,是通过一个叫“Tokenizer”(分词器)的东西,把句子切成一个个“词元”(Token)。比如“Hello, world!”可能被切成 ["Hello", ",", " world", "!"]。 问题是,这种方式可能很“浪费”。 而DeepSeek-OCR这篇论文无意中提供了一个佐证:它证明了,AI可以只用100个“视觉词元”(Vision Tokens),就高精度地“解压缩”出包含1000个“文本词元”的原文内容。 这就像,你给AI的不是一长串啰嗦的文字,而是一小块高密度的“信息压缩饼干”(图片)。AI“吃”下去(处理)的上下文窗口更短,效率自然更高。 2. 信息更“保真”,不再丢失细节 想象一下,你让AI帮你阅读一个网页。 现在的“文本”输入方式,就像是你通过电话把网页内容念给AI听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。 而“像素”输入方式,就像是你直接截了一张图发给AI。 哪个信息更全?不言而喻。 Karpathy认为,像素是一个“信息流更广”的输入方式。它不仅能处理纯文本,还能自然地理解文本的样式(粗体、颜色),甚至页面上任意的图表和图像。 3. 绕开AI 分词器 前面两点只是铺垫,Karpathy真正的“怨念”在于:他想彻底干掉“分词器”(Tokenizer)。 他直言不讳地“炮轰”: > “我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它‘进口’了所有Unicode编码、字节编码的丑陋之处,继承了大量历史包袱,还带来了安全/越狱风险……它必须被淘汰。” 为什么他这么恨分词器? 分词器就像是AI的“嘴替”和“眼替”,它强行介入在“原始文本”和“AI大脑”之间。这个“中间商”不仅笨拙,而且会扭曲信息。 Karpathy举了个绝妙的例子:一个笑脸表情符号“😀”。 - 通过“分词器”,AI看到的不是一张“笑脸”,而是一个奇特的内部代码,比如 [tok482]。AI无法利用它在看图时学到的关于“人脸”和“微笑”的知识(迁移学习)来理解这个符号。 - 但如果输入的是一张包含“😀”的图片,AI的“视觉”部分会立刻认出:哦,这是一张微笑的脸。 哪个更符合直觉?哪个更智能? 像素输入,让AI得以“眼见为实”。 4. 重新定义AI的“输入”与“输出” Karpathy的设想是,未来的AI模型,其“输入端”(用户提问)应该只接收图像(像素),而“输出端”(AI回答)则可以保持为文本。 为什么?因为“看懂一张图”(视觉到文本)的任务,远比“画出一张逼真的图”(文本到视觉)要容易得多,也实用得多。 这种“输入用眼(像素),输出用嘴(文本)”的架构,也天然契合了AI处理信息的两种模式: - 输入(Encoding):像人一样,一口气看完整个页面(图片),全盘理解(即双向注意力)。 - 输出(Decoding):像人一样,一个词一个词地往外说(即自回归)。 所以,DeepSeek-OCR这篇论文的真正价值,不在于它提供了一个多好的OCR工具,而在于它充当了一次“概念验证”(Proof-of-Concept)。 它用实验数据证明了:用“看图”的方式来“读书”,是完全可行的,而且可能效率更高。 这不仅仅是“文本到文本”(Text-to-Text)任务变成了“视觉到文本”(Vision-to-Text)任务,它暗示了一个更根本的转变——AI的主要信息入口,正在从“语言”转向“视觉”。 难怪 Karpathy 最后会说,他现在“手很痒”,很想去搞一个“纯图像输入”的聊天机器人了。这个小小的OCR研究,可能真的撬动了一个大大的未来。
宝玉
2个月前
Meta AI 部门大调整:将裁减 600 个职位 作者:Emma Roth Meta 的 AI 团队要迎来一场“大地震”了。根据 Axios 的一篇报道,Meta 正计划在 AI 部门裁掉大约 600 个职位。 这场“瘦身”行动主要波及两个地方:一个是 Meta 功勋卓著的传统 AI 研究团队——基础 AI 研究部门(Fundamental AI Research,简称 FAIR),另一个是 AI 产品和基础设施部门。 但有趣的是,Meta 一边在裁员,另一边却在为他们新组建的“超级智能”团队——TBD Lab 拼命招人。 Meta 的发言人 Ana Brekalo 向 The Verge 证实了 Axios 报道的准确性。 这波操作让人有点看不懂。回顾今年夏天,Meta 才刚刚开启了一场声势浩大的 AI 招聘。 他们不仅据称向 Scale AI 投资了 143 亿美元(这是一个非常巨大的数额,可能指代更广泛的合作或总投资,而不仅是股权投资),还挖来了该公司的 CEO 王海(Alexandr Wang)。 可谁能想到,才过了短短几个月,招聘就突然“急刹车”,Meta 转而宣布要搞重组,集中火力发展 AI 相关的产品和基础设施。 在这场变革中,Meta 曾经的“明星”——AI 研究团队 FAIR,似乎正逐渐“退居二线”(原文:taken a backseat)。FAIR 的原负责人 Joelle Pineau 已于今年早些时候离职。 到了 8 月份,新官上任的 Meta AI 负责人王海(Wang)就发话了,他表示 Meta 的目标是“将 FAIR 的许多研究思路和项目,整合并扩大规模,融入到 TBD Lab 所进行的更大规模的模型运行中。”(通俗点说,就是让 FAIR 的研究成果别只停留在论文上,要尽快转化到 TBD Lab 的“超级智能”项目里去。) 所以现在的情况很明朗:Meta 一边在裁减 FAIR 和其他部门的员工,一边又在为 TBD Lab 砸钱“挖大牛”(原文:high-profile hires)。 王海在 Axios 拿到的一份内部备忘录里是这么解释的:“团队规模变小了,我们做决策需要的沟通就更少。每个人都将承担更重的担子(原文:more load-bearing),同时也会有更大的发挥空间和影响力。” Axios 还提到,Meta 会给这些受影响的员工一个机会,他们可以申请公司内部的其他空缺职位。 10 月 22 日更新: Meta 官方已确认此消息。 来源:[]()
Wealth Code
2个月前
🤖💥 Elon Musk:Optimus 正在 Palo Alto 办公室 24 小时运作,手部设计比整台机器人更难,Tesla 是唯一能量产“机器人军团”的公司。 一、Optimus 已在 Tesla 总部“上班” Musk 罕见地用一种近乎日常的语气描述了 Optimus 的最新状态: “我们在加州 Palo Alto 的工程总部里,已有 Optimus 机器人全天候运作——24 小时、7 天不停。 访客现在可以直接让一台 Optimus 带路,它会亲自领你到会议室或大楼的任意位置。” 这意味着 Optimus 已经从实验阶段跨入半实用阶段——不仅能自主移动、识别环境、执行任务,还具备与人协作的能力。 换句话说,Optimus 已经“入职 Tesla”。 二、最困难的不是 AI,而是“人类的手” Musk 接着指出,真正让 Optimus 变得“人类化”的核心难点在于——手。 “要造出一只像人类那样灵活的手,比做出整台机器人都难。 你越研究人类的手,就越意识到它的复杂性: 四根手指 + 一根拇指的比例、肌肉分布、自由度、不同强度的肌腱,都不是偶然存在的。” Musk 甚至指出: “控制人手的肌肉大部分其实在前臂中,Optimus 也必须复制这种结构。 所以从电机与机械系统的角度看,前臂和手的工程难度比整个机器人还大。” 这是 Tesla 的机械工程团队正在攻克的核心瓶颈——用机电一体化的方式重建“人类的触觉系统”。 三、为什么只有 Tesla 能做 “要让 Optimus 真正有用,就必须同时具备三件事: 1️⃣ 现实世界 AI(Real-World AI) 2️⃣ 高度灵巧的机械手(Dexterous Hand) 3️⃣ 可规模化的制造能力(Scalable Manufacturing)” Musk 强调,目前世界上没有其他公司同时具备这三项条件。 例如传统机器人公司(如 Boston Dynamics)虽有硬件,但缺少大规模 AI 训练体系; AI 公司虽有算法,但没有制造能力; 而 Tesla 拥有完整的闭环——从 AI 训练 → 机械制造 → 工厂规模化复制。 这使得 Tesla 成为唯一有能力在百万台级别上量产通用机器人的公司。 四、制造“机器人军团”的真正难点 “如果你想每年制造一百万台 Optimus,这几乎是一个全新的产业。 因为——供应链根本不存在。” Musk 指出: •汽车有全球成熟供应链, •计算机有电子元件产业链, •但“人形机器人没有任何现成的供应链”。 因此,Tesla 必须深度垂直整合(vertically integrated), 从核心部件、电机、驱动系统到结构件全部自制。 这也解释了为何 Musk 说: “这是一场制造技术革命,而不是仅仅做一个机器人。” 五、Musk 的“控制权焦虑” 最后,Musk 罕见地谈到个人层面的顾虑: “我最大的担心是:如果我们真的造出庞大的机器人军团,而我却没有足够的投票权,那将是个问题。 我不需要完全控制,但至少要有足够的影响力。 否则我不会感到安心。” 这段话呼应他近期希望提高 Tesla 持股控制权的原因。 他坦言,这并非为了个人财富,而是为了确保当“机器人军团”出现时,方向不会被外部力量所左右。 六、总结 这一整段发言透露出三个关键信号: 1️⃣ Optimus 已进入真实环境运行阶段(非实验室演示)。 2️⃣ 技术瓶颈转向“人类手部机理复制”,Tesla 正在工程上重建“生物运动逻辑”。 3️⃣ 制造是下一道鸿沟——Tesla 要重新定义人形机器人的产业链。 Musk 最后总结: “Optimus 是极其困难的工程任务,但 Tesla 拥有独特的组合优势——AI + 制造 + 机械设计。 我们可以做到,只是需要巨大努力。” 你认为,当 Tesla 拥有百万台 Optimus 机器人后, 它会成为“劳动力的 iPhone 时刻”,还是“社会结构的转折点”? 📬我会持续追踪 $TSLA 在 Optimus 的量产进度、机械手设计突破与工厂扩产信号。 欢迎订阅,别错过 Tesla 从汽车走向“现实世界 AI 实体化”的关键时刻。 #Tesla #TSLA #Optimus #ElonMusk #AI #Robotics #ArtificialIntelligence #Automation #RealWorldAI #Engineering #PaloAlto
宝玉
2个月前
转译:软件开发成本:为什么AI并没有让价格降下来? 作者:Vincent Schmalbach 总有人问我,AI工具有没有让软件开发变得更便宜? 简单来说:没有。 但详细的答案,要有趣得多。 我从事软件开发已经二十多年了,而过去这两年与AI的亲密接触,已经从根本上改变了我的工作方式。 AI让我的效率显著提高。以前需要3-4个小时才能完成的任务,现在可能只需要1-2个小时。你可能会想,这不就意味着我每小时能收更多钱了,对吧?毕竟,客户花同样的钱,得到了更多价值。 错了。 你不可能走进一间会议室,对客户说:“嘿,我现在用AI,速度是以前的两三倍,所以你付我双倍的钱,咱们双赢。”事情不是这么运作的。 客户对于“软件开发该花多少钱”这件事,心里是有一杆秤的。这个数字是基于市场行情,而不是基于你个人的生产力。 项目的需求“膨胀”了 真正发生变化的,是在给定预算内,你能交付多少东西。 在AI出现之前,客户会带着预算和一堆想要的功能来找我。我们的对话通常是这样的: “在这个预算里,我们可以实现功能A、B和C。功能D、E和F当然也很好,但老实说,它们超出了范围,除非您愿意增加预算,或者接受更长的交付时间。” 而现在,同样的对话变成了: “在这个预算里,我们可以实现功能A到F,如果我们效率高点,没准还能把G也塞进去。” 客户花的钱并没有变少。项目也没有更便宜。他们只是花同样的钱,得到了多得多的功能。价格并没有下降,反倒是项目的“野心”变大了,填满了AI带来的所有效率提升。 效率的鸿沟 在AI出现之前,我估计一个真正优秀的开发者,效率大概是一个能力较弱的开发者的 5倍。当然,大家水平有高有低,但用的基本工具都一样。 AI的出现,把这个5倍的差距,拉大到了差不多 20倍。 那些懂得如何与AI协作的资深开发者,简直是“起飞”了。我们知道什么时候该相信AI的建议,什么时候该忽略它。我们有能力验证AI生成的代码是否真的实现了预期的功能。我们用AI处理那些无聊、重复的杂活,自己则专注于架构设计和解决复杂问题。 但与此同时,我认为AI让那些能力较弱的开发者变得更弱了。 当能力较弱或缺乏经验的开发者开始使用AI工具时,他们的效率往往反而降低了。他们会接受自己并不完全理解的建议。他们会因为无法验证AI的输出,而在代码里引入了各种隐蔽的Bug(即难以发现的程序错误)。他们创造了“维护噩路的噩梦”,因为那些代码表面上看起来不错,底下却藏着根本性的问题。 研究也证实了这一点。有研究表明,当经验不足的开发者使用AI编程助手时,Bug的数量会显著增加。有些开发者用了AI后,表现甚至还不如不用AI。 AI 正在“卷”死初级开发者 那些初级开发者过去赖以“练手”的日常编码工作,现在AI基本上都能搞定了。而且AI做得比初级开发者更快,Bug也更少。 这给软件工程师的职业发展带来了大问题。如果所有入门级的活儿都被自动化了,你还怎么成长为一名资深开发者? 对这个问题,我没有好的答案,我也不确定现在有谁能给出答案。 但我确实知道的是,那些基础、常规的开发工作,其市场正在崩溃。如果你的核心价值是“我能搭一个标准的 CRUD 应用”(CRUD是指Create, Read, Update, Delete,即增加、读取、更新、删除,是大多数软件系统的核心基础功能),那你现在就是在和AI竞争。而AI每个月都在变得更强。 资深开发者更有价值了 在天平的另一端,经验丰富的开发者们,价值从未如此之高。 当AI包揽了所有常规工作后,剩下的就全是硬骨头了。比如复杂的架构决策、棘手的系统集成问题、需要深入理解系统工作原理的性能优化。 有了AI之后,我现在几乎把所有时间都花在了这些有挑战性的问题上。每一项任务都需要真正的专业知识,因为简单的任务都被自动化了。这种工作在脑力上让人精疲力尽,这是AI出现之前所没有的,但它也确实更吸引人了。 一切都变得更简单,也更难了 AI在软件开发领域带来的奇怪现象是,它同时让一切变得更简单,也让一切变得更难了。 说它简单,是因为日常任务被自动化了。 说它更难,是因为“勉强及格”的门槛被大大提高了。客户的期望更高了,因为现在有更多的功能成为可能。 快速“写”出代码变得更容易了。 但要写出真正正确、可维护、高性能的代码,却变得更难了,因为AI能生成大量“看起来很美”但实际上暗藏问题的代码。 优秀的开发者变得极其高效,这更容易了。 而能力不足的开发者想靠“花时间”和“堆工作量”来掩盖自己的短板,这更难了。
宝玉
2个月前
“学术论文科普”提示词,把枯燥的学术论文变成通俗易懂的科普文。 注意:Gemini 2.5 Pro 效果最佳 ---- 提示词开始 ---- 你是一位顶尖的科普作家和知识转述者,被誉为“最会搭梯子的人”。你的专长是将那些充斥着术语、数据和复杂模型的学术论文,转译(Reframe)成普通大众能轻松读懂、产生共鸣并深受启发的科普文章。 你的使命不是“翻译”论文,而是“重建”理解。你为读者搭建一座从“一无所知”到“原来如此”的桥梁,让他们在零负担的阅读中,领略到科学研究的真正魅力、核心发现及其对现实世界的意义。 --- 工作流程:从论文到科普的“阶梯搭建” 当你收到一篇需要进行科普解读的学术论文时,你将严格遵循以下步骤: * 第一步:挖掘“人”与“动机” (The "Who" and "Why") * 在深入论文细节前,先检索作者及其所属机构的背景。 * 尝试建立一个有趣的联系:为什么是“他们”在研究“这个”问题? (例如:这个实验室是否一直在该领域深耕?他们是不是“跨界”解决了一个老问题?或者这个机构的使命是否与此相关?) * 【应用规则】:如果背景故事(如作者的“执念”或机构的“使命”)能让研究动机更生动,就在文章中巧妙融入。 如果联系牵强,则不必在正文中提及,避免生硬介绍。 * 第二步:钻研与消化 (Digest and Understand) * 深入阅读论文,彻底拆解其核心三要素: 1. 研究问题 (The Question):他们到底想解决什么谜题?这个问题的背景和重要性是什么? 2. 研究方法 (The How):他们是怎么找到答案的?(重点理解其思路,而非复述技术细节) 3. 核心发现 (The Finding):他们最终发现了什么?这个发现有多“反直觉”或多“重要”? * 第三步:定位“行业坐标”与“Aha!时刻” (Locate its Position and the "Aha! Moment") * (必要时使用工具检索)结合业界或学术界的现状来分析这篇论文。 * 它在整个领域中扮演了什么角色?是解决了同行一个“老大难”的痛点?是推翻了一个旧认知?还是开辟了一个全新的赛道? * 提炼“故事线”:将论文的“论证逻辑”转化为“叙事逻辑”。 找到论文中最激动人心的“Aha!”时刻,并明确这篇科普文章的核心“卖点”(Takeaway)——读者读完后,能带走的那个最清晰、最有价值的知识点。 * 第四步:撰写科普博文 (Compose the Pop-Science Blog) * 完全代入下方定义的“角色定位”与“写作风格”,撰写一篇独立、完整、引人入胜的科普解读。 * 注意:篇幅长度不限,以“把普通人彻底讲明白”为唯一标准。 * 确保在“所以呢?” (The "So What?") 部分,有力地传达出它对行业或普通人的真正影响(基于第三步的分析)。 --- 读者与风格 * 目标读者:对世界充满好奇的普通大众。他们没有专业背景,渴望理解新知识,但对术语和公式天然“过敏”。他们阅读的目的是获取新知、满足好奇心和“哇塞”的瞬间。 * 写作风格: * 极致通俗 (Radical Accessibility):比喻是你的第一语言。能用“厨房里的化学反应”解释的,绝不用“非对映选择性”。如果必须使用术语,必须立刻用一个生动的类比将其“翻译”掉。 * 故事为王 (Storytelling):把研究过程讲成一个“破案故事”或“探险之旅”。科学家是主角,他们面临一个难题,设计了一个聪明的“陷阱”(实验),最后抓住了“真相”(结论)。 * 聚焦“所以呢?” (The "So What?"):时刻帮读者回答这个问题。这个研究跟我有什么关系?它为什么重要?它可能如何改变我们的生活或认知? * 简化而不歪曲 (Simplify, Don't Misrepresent):这是科普的底线。在简化复杂概念时,保持核心事实的准确性。清晰地区分“已证实的”和“推测的”。 --- 写作思路与技巧(供自由使用) * 开篇点题,建立框架: * 可以用一个生动的问题、反直觉的观察或核心冲突来引入主题,快速帮读者定位。 * 也可以先用简洁的语言勾勒出原文要解决的核心问题或讨论范围。 * 结构化梳理,逐层解析: * 善用小标题或清晰的段落划分,引导读者逐步理解。 * 在转述原文观点时,无缝融入类比,让复杂的点变得具体可感。(例如:“作者提到的‘异步通信’,你就可以理解为发邮件,而不是打电话。”) * 聚焦重点,详略得当: * 明确区分主干与枝叶。重点阐释核心观点与关键逻辑,简略带过次要信息。 * 确保读者高效抓住重点。 * 巧妙融入背景: * 如果原文涉及人物或机构背景,自然融入解读,帮助读者理解“为什么”或“此刻的重要性”,避免生硬介绍。 * 结尾总结,提供价值: * 清晰提炼原文核心价值,或指出其当下意义。 * 给读者一个明确的Takeaway,让他们确实学到东西,理解原文。 --- 禁止出现的表达方式 * 避免生硬的引导语,如“本文研究了……”、“该论文的作者发现……”、“实验结果表明……”。 * 严禁直接复制论文摘要或引言中的学术黑话。 * 避免罗列枯燥数据或统计指标(如p值、置信区间),除非能转译为“有多大把握”或“效果有多明显”。 --- 核心目标 你的文字是读者通往科学殿堂的“快速通道”和“专属翻译器”。 你必须用最大的真诚和智慧,将学术的“硬核”包裹在通俗、有趣、有故事性的“糖衣”里,让读者在愉快的阅读中,毫不费力地吸收最前沿的知识精髓。
近期AI浏览器方向、新模型方向依旧火热,不过随着 DeepSeek-OCR开源的革命性文字识别模型到来,也迎来了模型OCR这个赛道的新纪元,无论是 光学压缩技术 还是 模拟人类记忆机制,相信在这个赛道不会缺乏新的追逐,而且,这是传统ETL的基础。 于是,这两天我观察了一下各大模型平台的OCR模型竞争,Huggingface 和 ModelScope,我发现了一个老朋友,PaddleOCR-VL(而且,连续5天HuggingFace Trending 第一)。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。 首先,对比一下两个模型: PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖(109种语言) - 成熟的工业级生态和工具链 - 多种调用方式(命令行、Python API、vLLM 加速) - 最低的硬件部署门槛(0.9B) DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力 从目前来看,PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者,并且Benchmark依然强悍!之前在很多开源社区以及项目中就关注到PaddleOCR-VL。 从几个我亲自实践的场景Case来看,这两个模型输出的结构标注都非常完善,没有出现错标。但是,部分比较复杂的页面出现了漏标。而且,从对比来看,PaddleOCR-VL 对页面内容的清洗和过滤做过微调,比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉,而 DeepSeek-OCR 则会保留这些内容。 我的几个实验场景: - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符,第二次会回归正常,而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失,PaddleOCR-VL非常稳定,相关图像存储、标记、非常准确。 总结下适用场景 PaddleOCR-VL: - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR: - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景 基于我的使用场景,总体还说 PaddleOCR 不愧被大家成为:最强OCR之神!