WY

统计数据

17

文章

0

粉丝

0

获赞

101

阅读

1周前

DeepSeek刚发的OCR模型有点小火，一方面是突出的性能，号称压缩10倍还有97%准确率，另一方面关于用分辨率来模拟遗忘机制的假想，恰巧AK在最近的访谈中说人的遗忘是一个feature而不是bug。 DeepSeek OCR模型很有意思的一点是提供了好多个“分辨率”选项，并且看起来用的token很少。最低的512 x 512一张图只需要64个token，稍大一点的1024 x 1024是256个token。复杂版面还组合使用多种分辨率，首先是整张图用i个1024 x 1024，此外重点区域可能用多个640 x 640。不少人惊呼太牛逼了，一张图只需要几十个token。其实至少在学术界，这样的视觉编码效率并不算很大的突破。目前看不到技术细节，但DeepSeek OCR的搞法，怎么看怎么像去年字节的那篇best paper的思路（还记得去年字节有个实习生搞破坏被公司索赔800万吗，他就是paper的作者）。那篇paper是去年顶会NeurIPS的best paper，提出的Visual Autoregressive Modeling(VAR)方法就是采用"粗到细"的多尺度预测,逐步从低分辨率扩展到高分辨率。另外，去年豆包团队也有一篇paper，把512 x 512的图片也是编码到了64个token，和DeepSeek OCR一模一样。那篇paper还能把256 x 256的图片编码到更小的32个token。DeepSeek OCR模型毕竟是要做文字识别而不是场景理解的，可能因此舍去了不太实用的256 x 256尺寸。很有可能DeepSeek OCR是受到了这两篇paper很大的启发，把它进一步工程化产品化了。从过往的记录看，DeepSeek团队特别把其它实验室的研究成果进一步做扎实，产品化。至于用分辨率来模拟遗忘机制的假想，确实是个有点意思的想法，但也感觉有点不太对。越来越模糊的分辨率，感觉模拟的更像是越来越高度的近视，这是一种很好的遗忘机制吗？另外，人脑的遗忘机制可能适合人脑，未必适合数字的第二大脑。人脑要遗忘也可能是因为一个人的脑容量毕竟有限，数字系统容量可以一直扩，是不是一定要遗忘呢。这些都是问题。这得多想想。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 126 条信息

#DeepSeek OCR #分辨率模拟遗忘 #多尺度预测 #字节跳动VAR #工程化产品化

1周前

因为张尧学被查，透明计算的事又被翻出来。具体怎么回事我没能力也没时间去深究，但肯定也不是如某些人说不就是虚拟机、VNC那么简单，很多人估计从来没有参与过学术圈评奖的过程。要得一个国家奖好好多顶会论文的Best Paper、国家专利金银奖、很多国际大牛的高度评价、很多应用单位的证明，虽然自然奖相比发明和科技进步对经济效益的要求较低，但空缺多年的国家一等奖的要求也不会太低。我的感觉，科研学术圈的评价体系从论文、专利、课题到奖项的评选，看似非常可观公正（是的，很多时候打分的维度和标准看起来都很规范），但因为一些事情根子上没做好，导致制度性腐败。如果和对公司的评估体系相比的话，可以说是严重缺乏审计。比如上面说的经济效益的证明，只要所谓的应用单位盖个章，用某种方式“证明”采用了你的技术或者发明实现了多少多少经济效益就可以了，这样就看谁有权有面子能拿到证明，这种证明根本没有机构去核实。再比如顶会论文不假（顶会几乎都是国际会议），但论文和报奖的事实通常压根就没什么关联，是在报奖的时候，把课题组所有比较好用的材料，硬生生攒一个故事。这种情况也是没人去认真核实，只要故事看起来像那么回事就过关了。这个就跟在公司里评职级时才把工作思路说的那么头头是道是类似的，其实平常都是乱干。张虽然被查了，但要指望这事对学术体制带来什么改变大概率会失望。张被查很可能也不是因为学术造假而是其他原因。有不少人说中国上市公司的财报都是不能信的，财报好歹还有专业的审计，和学术圈的很多所谓的成果相比，财报都客观严谨多了。

#张尧学 #透明计算 #学术腐败 #科研评价体系 #制度性腐败

1周前

Claude Skills可能走对路了前天Anthropic发布了Claude Skills，这是一种让AI获取新能力的全新机制。很不错的设计，包含了软件两个最主要的组成部分：程序和资源，还没有什么别的复杂性。架构看起来很合理，虽然要实际用用才能感觉出来是不是真的好用，但初步从架构设计看，感觉Claude Skills在方向上可能走对路了，整个AI行业可能走对路了。简洁的力量：程序+资源就够了 Skills的核心概念非常简单：一个Skill就是一个文件夹，包含指令、脚本与资源。具体来说，每个Skill包含三样东西：指令(Instructions)告诉Claude该做什么、脚本(Scripts)执行具体任务、资源(Resources)提供模板和辅助内容。因为自然语言也是代码，指令和脚本其实是分不清的，都属于程序。这种设计的合理之处在于它抓住了软件的本质。软件不就是程序和资源吗？程序负责逻辑，资源负责数据和素材。Skills把这两者有机结合，又没有引入什么别的复杂性。更重要的是Skills的按需加载机制。Claude只会在Skill与当前任务相关时才会调用，并且采用渐进式披露：先加载元数据(约100词)，再加载主体(也比较小)，最后才是具体的资源文件。这种设计既高效又节省token，体现了对成本和性能的深度考量。 AI能力扩展的演进：从Plugin到Skills 要理解Skills的价值，需要回顾OpenAI和Anthropic在AI能力扩展上的探索历程。 OpenAI的Plugin是第一次尝试，但看起来是不成功的尝试。Plugin主要依赖API调用，虽然概念不错，但实际体验并不理想，很快就被弱化了。后来推出的GPTs允许用户定制AI的知识和行为，但本质上仍然是基于提示词工程的定制，缺乏真正的能力扩展。最新的Apps则希望把第三方的界面直接嵌进来，感觉步子迈得有点大。让AI直接操作第三方应用的界面，这种computer use式的方案虽然听起来很酷，但实际可控性和可靠性都面临巨大挑战，而且第三方应用也不愿意被嵌入的这么深。百度很多年前想做框计算，目的是类似的，并没有成功。 Anthropic自己推出的MCP(Model Context Protocol)走的是另一条路，主要通过API调用已有服务的能力，和Skills的定位不同。MCP更多是为了连接外部系统和服务，而Skills则是为Claude赋予新的原生能力。相比之下，Skills找到了一个更优雅的平衡点。它用Markdown这种人人都能理解的格式来描述能力，可以包含详细的使用说明和示例。开发者创建一个Skill，就像是"给Claude写一份入职手册"。而且Skills可以打包分享，形成开放的生态系统，这大大降低了开发门槛。 Anthropic一口气开源了20多个Skills，涵盖创意设计、开发技术、企业应用等各个领域。这种开放的姿态，很可能会推动一个繁荣的Skills生态的形成。资源的例子很好理解：Canvas-fonts包含很多字体文件，这样Claude在生成设计时就能直接调用。仍需改进的地方当然，任何新技术都不可能完美。Skills目前也存在一些明显的不足。首先是技术门槛问题。虽然Skills用Markdown编写降低了理解难度，但官方的一些Skills仍然依赖于apt-get这样不够亲民的指令，至少对大多数Windows的用户这一步就直接挂了。普通用户希望的是一个软件包一装就灵，而不是还要装一大堆依赖。如何让Skills的创建和使用更加大众化，是Anthropic需要继续优化的方向。其次，Skills看起来不容易拥有自己的存储和数据库。这在处理需要持久化状态的任务时可能会成为限制。比如，如果我想创建一个帮我跟踪工作进展的Skill，它需要记住之前的任务状态和历史数据，但现在的Skills架构似乎不太支持这种场景。不过或许可以在Skill里调用sqlite这样的数据库命令来实现这一点？结语 Claude Skills的发布，为AI能力扩展提供了一个简洁而优雅的解决方案。相比OpenAI的Plugin、GPTs和Apps等尝试，以及Anthropic自己的MCP，Skills在易用性、可控性和生态开放性之间找到了更好的平衡。它避免了过度工程化的陷阱，用最小的复杂度实现了核心价值。在AI原生应用的探索中，我们都在寻找那个平衡点：既要充分发挥AI的能力，又要保持用户体验的简洁流畅；既要提供强大的功能，又要避免不必要的复杂性。Skills在这个平衡上做出了有价值的尝试，值得我们这些AI产品从业者认真研究和借鉴。

Claude Skills系统发布引发AI行业新变革· 27 条信息

#Claude Skills #AI能力扩展 #Anthropic #AI原生应用 #技术生态

2周前

RAG已死？RAG已死的说法最近看到不少，很多是受Claude Code用grep的影响。问题是，grep就是一种信息检索手段啊，有grep就是RAG，只有那种每次把整个库都丢进去的不是RAG。另外，grep只是一种信息检索手段，只用grep做RAG目前还没有看到在非代码场景的成功案例，现在就断言以后用grep就行，我觉得应该都是没做过RAG。然后，很多人觉得向量化要切片，就觉得喂给LLM的就只是片段，不是全文。这都哪跟哪，命中切片之后难道不能把全文喂进去吗。要这么说，grep还命中的是一行呢，难道就喂一行。这些都是似是而非的说法。

#RAG #信息检索 #grep #LLM #技术讨论

2周前

有句名言，某哈佛商学院教授说的：人们并不想买四分之一英寸的电钻，他们想要的是四分之一英寸的孔。这句话经常被用来批评某些人不重视为用户达成目标或解决问题，只是卖产品。这句话坑了很多人，比如中国的To B行业，觉得应该给客户提供全面解决方案和服务的，很多都亏的不要不要的，连用友都不能幸免。反之，不少坚持卖产品活得还不错，比如神策。我们之前做的数帆也还行。很多人说这句名言，但没有想过，是做电钻的公司活的好，还是提供工程服务的公司活的好？做电钻的公司我马上能想到博世、Stanley，都是很牛逼的企业，做工程服务的公司当然也有，没那么知名吧？

#To B行业 #产品销售 #全面解决方案 #博世 #商业模式

4周前

DeepSeek又一次引领世界前几天DeepSeek发布了V3.2-Exp实验性模型，虽然这次的发布没有引起太大的声量，但我仔细研究了一下，觉得实际上是又一次重大突破，很可能DeepSeek再一次在大模型高性价比技术上引领了世界。通过全新的DeepSeek Sparse Attention(DSA)稀疏注意力机制，V3.2-Exp将大模型的推理成本从平方级直接降至接近线性。传统注意力机制的计算复杂度为O(L²)，而DSA将核心注意力的计算复杂度降低到了O(Lk)（其中k=2048，对大型任务来说远远小于L也就是输入和输出的token数）。在H800 GPU集群上的测试显示，随着上下文长度的增加，V3.2-Exp的推理成本曲线几乎呈现为常数级（有人测算过成本曲线的斜率只有平方级的1/20）。实现这一点的思路是，先通过一个叫做闪电索引器（lightning indexer）的组件快速选择需要参与后续核心注意力计算的最多2048个token。闪电索引器的计算复杂度仍然是O(L²)，怎么可能实现接近线性的成本？秘密在于数据精度的创新。DSA将索引器内的Q、K矩阵从BF16精度降为FP8精度，虽然维度并未减少，但FP8的使用大幅减少了带宽占用，提高了寄存器缓存命中率。在GPU的Tensor Core加速单元面前，矩阵运算本身几乎是"零成本"的，真正的瓶颈在于数据传输。通过让数据占用更少的位数，一次就能传输更多参数，实现了对硬件性能的极致压榨。这个方案再次体现了DeepSeek团队对硬件相关工程技术的深厚功底。再看国际顶级模型的定价策略，能更明白DeepSeek这次创新的价值。Gemini 2.5 Pro采用了复杂的阶梯定价：输入token在20万以下时每百万1.25美元，超过20万则涨到2.50美元；输出token同样分段，20万以下10美元，超过则涨到15美元。最新发布的Claude Sonnet 4.5（比DeepSeek v3.2还晚）对超长上下文同样采取了加价措施。这说明这些模型的推理成本仍然与输入输出长度高度相关，长文本处理的单位成本远高于短文本，所以必须通过差异化定价来覆盖成本。所以很可能DeepSeek做到了Gemini和Claude这些顶级模型都没做到的事。推理成本接近线性，对AI应用开发意味着什么？线性成本对大模型最常见的多轮对话场景的意义可能是革命性的。如果推理单位成本是上下文长度的平方级，那么对话应用的成本就是对话轮次的立方级，20轮对话和10轮对话相比成本就是8倍。如果推理单位成本降到和上下文长度成正比，对话应用的成本就降到了对话轮次的平方级。这看起来似乎还是很高，但我们可以认为对话应用的价值和对话轮次也是平方级，因为第N次对话使用了前N-1次对话的信息，创造的单位价值就更大。平方级的价值和平方级的成本，这个过程就可以长期持续下去；平方级的价值要付出立方级的成本，就无法长期持续。过去开发者面对超长文档时，不得不将其切分成小块，分别送入模型处理，最后再想办法把结果汇总起来。这个过程不仅增加了开发复杂度，还经常导致上下文丢失和理解偏差。但有了接近线性成本的模型，就可以直接把整份文档一次性喂给AI，让它在完整理解的基础上进行更新，既准确又高效。在法律和医疗等专业领域，这种改变就很关键。比如律师需要AI分析一个复杂案件的全部卷宗材料，可能涉及几百页的法律文书、证据材料和判例引用。如果必须切分处理，很可能遗漏关键的关联信息；而一次性处理全部材料，AI就能发现不同文档之间的矛盾和逻辑链条。医疗领域同样如此，一个患者的完整病历可能包括多年的就诊记录、检查报告和用药历史，只有完整分析才能给出准确的诊断建议。对于AI搜索和智能助手应用，线性成本也打开了新的可能性。传统的AI搜索工具在处理用户查询时，往往需要在检索数量和成本之间做权衡——检索太多相关文档会导致成本飙升，检索太少又可能遗漏重要信息。但如果推理成本接近线性，就可以放心地检索更多文档，让AI在更广阔的知识范围内给出答案。当OpenAI等巨头还在依靠堆砌算力来解决问题时，DeepSeek用更聪明的方法找到了一条新路。从V3的低成本训练到R1的开源推理能力，再到V3.2的线性成本推理，DeepSeek一次次向世界展示了中国实力。可能也是因为DeepSeek v3.2的发布，才使得一贯反华的Anthropic也不得不在节前发布Claude Sonnet 4.5向我们国庆献礼。

Google Gemini 2.5发布引发AI模型性价比热议· 250 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 608 条信息

#DeepSeek #V3.2-Exp #稀疏注意力机制 #线性推理成本 #国产AI

1个月前

优秀产品经理这件事是很难说的，即便过往成功过，下一次也未必行。有些人都出过书了，但之后似乎也没搞出大名堂来。在前司的时候我们研究院出过不少产品，但我不算一线产品经理出身，我不认为我对产品的理解约等于零，但也不觉得自己懂多少，在自己做成功之前。相对来说，张小龙确实是比较佩服的，不仅是因为微信能从最开始的发个语音经历摇一摇、朋友圈、公众号、小程序、视频号做到现在这个大格局，还因为当年张小龙带团队做QQ邮箱的时候给我们带来极大压力。他的战斗力是真的强，这里也包括他在腾讯内部争取资源的战斗力。大家讨论的时候比较关注细节的体验，但我认为优秀产品经理的优秀更多的来自于他的格局和架构能力。刚已经说了张小龙的例子，我认为乔布斯的大成也是因为他从iTunes到iPod、iPhone、App Store、iPad、iCloud等几个重大的战略或者架构。如果说细节体验的话，Mac也有不少可以吐槽的地方，比如为什么连个Ctrl + X都没有，为什么装软件不能双击一下，还得拖到Application。但这不影响Mac的销量。我没有资格，也没有精力去评价别人哪里做的不好，有精力学习到别人哪里做得好就不错了。因为好的是少数，不好的或不知道好不好的是多数，学习到一个好的就是学到了，避免了一个不好的可能还是会掉到另一个不好的里面去。

#产品经理 #张小龙 #格局 #架构能力 #微信

1个月前

写了个Python小程序fetch网页内容，别的都OK，知乎的基本都失败，有什么招吗？尝试设置过UA，无效。

#Python #知乎 #网络爬虫 #UA设置 #失败

2个月前

很多人期待remio的Windows版本，我们开始招Windows开发工程师啦，有兴趣的DM联系。还请朋友们方便的话帮转发一下。岗位职责：开发Windows平台的知识捕获功能，包括文件监控、内容抓取等实现屏幕截图、窗口识别、系统集成等Windows系统级功能与现有Electron架构协作，优化Windows平台用户体验集成AI能力到Windows原生功能中任职要求 1、必备技能： 3-5年Windows开发经验，熟练掌握C++/C#/.NET 深度了解Windows文件系统API、注册表、系统服务等有屏幕捕获、窗口管理、系统钩子开发经验熟悉COM组件、多进程通信等Windows技术 2、加分项：对 AI 相关产品技术有热情，积极使用 AI 产品，研究 AI 相关技术了解Electron或跨平台开发技术，有桌面应用完整开发经验我们提供：有竞争力的薪资（根据能力面议）+ 股权激励 + 完善的五险一金技术挑战机会：参与AI+桌面应用的前沿技术探索产品成长体验：见证和推动产品从0到1的完整历程学习成长机会：紧跟AI技术前沿，与优秀团队共同成长工作地点

#Remio #Windows开发工程师 #招聘 #AI #C++/C#/.NET

2个月前

今天Fonder Park有篇文章说假设大模型的成本会快速下降是幻觉，很认同。就像计算机，虽然同等性能的设备的价格确实会快速下降，但主流配置的价格总是差不多的，几年前的配置虽然便宜但没人会买了。大模型的性能还远没有到过剩的时候，用量最大的还是最新一代的模型，老旧模型虽然便宜但不够用。所以如果现在亏钱，不要指望明年就能赚钱。

#大模型成本 #Fonder Park #性能过剩 #最新一代模型 #亏钱

4个月前

曾负责ChatGPT、Uber、Instagram 等产品的顶级产品经理Peter Deng访谈

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 608 条信息

#ChatGPT #Peter Deng #产品经理 #访谈 #科技

6个月前

我们又来招人啦。 remio招一位海外社媒运营实习生，主要工作是混Reddit、Hacker News、Twitter等，也可以做一些Blog等内容工作。要求就是很喜欢刷各种上述媒体，Reddit karma值严重过关（至少100以上吧），熟悉生产力工具类产品，有热情。可现场办公（杭州），也可远程，国内亦可、北美亦可。报酬可能比较普通哈，但我们可以提供一个宽松的环境，比如不要求啥都要考虑推销remio，你涨粉我们才涨粉，也会很重视对产品的建议和反馈。有兴趣的DM。

#招聘 #实习生 #社交媒体运营 #remote工作 #内容创作

6个月前

OpenAI气数已尽，Altman不干实事看今天发的GPT-4.1，我感觉OpenAI大概率气数已尽了。高端打不过Gemini和Claude，nano估计也打不过Gemini Flash（看得分就不如4o-mini），只敢跟两年前的4o比，但还不能替换4o，因为不是多模态的。明显看出来OpenAI是手里没什么牌了，捉襟见肘，就算明后天再发个o4出来可能也无济于事，因为大概率会超贵导致其实没多少人用。去年我就感觉OpenAI可能会步仙童后尘，今天看越来越有可能。我觉得OpenAI如果真的不行了，和Altman不干实事有很大关系。这家伙花太多精力在忽悠钱上，一会7万亿，一会5000亿Stargate，就没想想自家的团队怎么才能有新的领军人物，自家的模型要怎么规划。

#OpenAI #GPT-4.1 #Gemini #Claude #nano #4o #多模态 #技术竞争 #升级

7个月前

经过大半年紧锣密鼓的开发，我们的AI知识助手产品—remio—今天正式开启内测，有兴趣的朋友们请移步官网（）申请加入waitlist。请朋友们方便的话帮忙转发[Salute][Salute]

#AI助手 #remio内测 #产品上线

9个月前

工作中的信息分过程和结果两类，管理和协作需要的是结果类信息，个人在产生结果之前会产生大量过程信息。如提交的调研报告是结果，但调研中做的大量的搜索、浏览、访谈等零零碎碎的过程信息，没有必要用协作平台管理，用户也不愿意被管理者看到。

#信息管理 #协作 #过程信息 #结果信息 #隐私 #工作流 #效率

9个月前

Claude Computer use出来的时候做过一个预测，今天OpenAI Operator已经做到OSWorld 38%了，比预期的还要快。

#Claude Computer #OpenAI Operator #OSWorld #预测 #预期

10个月前

说大模型不行的话要慎重。昨天去一个活动做分享，在我之前分享的是一位大学教授，总的基调是认为大模型能力不行，不能用于生产，要用在生产上必须针对每个场景做针对性微调。该教授举了几个例子来证明大模型不行，如：做高考数学不行；不会逆向思考，所以答不出上一句诗；要语料反复曝光才能学到知识，所以回答不了中国第九长河这样的问题。现场测试o1，只要是常见的诗，问上一句诗一点压力都没有，回答第九长河也有理有据，甚至还会考虑是算中国境内长度还是全流域长度，还会分析说松花江可以算作独立的，也有当作黑龙江一部分的，比搜索的效果我觉得好多了。 2024高考数学我查了下，o1-preview可以拿到141的高分。等到我上台，我说我是创业者，我主要是来给大家鼓劲的，要相信大模型的技术发展。我今天特别有信心，因为刚才教授说大模型不行的两个例子，我试了下都可以。千万不要随便diss大模型，因为很容易过时。

#大模型 #人工智能 #机器学习