近期AI浏览器方向、新模型方向依旧火热,不过随着 DeepSeek-OCR开源的革命性文字识别模型到来,也迎来了模型OCR这个赛道的新纪元,无论是 光学压缩技术 还是 模拟人类记忆机制,相信在这个赛道不会缺乏新的追逐,而且,这是传统ETL的基础。 于是,这两天我观察了一下各大模型平台的OCR模型竞争,Huggingface 和 ModelScope,我发现了一个老朋友,PaddleOCR-VL(而且,连续5天HuggingFace Trending 第一)。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。 首先,对比一下两个模型: PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖(109种语言) - 成熟的工业级生态和工具链 - 多种调用方式(命令行、Python API、vLLM 加速) - 最低的硬件部署门槛(0.9B) DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力 从目前来看,PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者,并且Benchmark依然强悍!之前在很多开源社区以及项目中就关注到PaddleOCR-VL。 从几个我亲自实践的场景Case来看,这两个模型输出的结构标注都非常完善,没有出现错标。但是,部分比较复杂的页面出现了漏标。而且,从对比来看,PaddleOCR-VL 对页面内容的清洗和过滤做过微调,比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉,而 DeepSeek-OCR 则会保留这些内容。 我的几个实验场景: - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符,第二次会回归正常,而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失,PaddleOCR-VL非常稳定,相关图像存储、标记、非常准确。 总结下适用场景 PaddleOCR-VL: - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR: - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景 基于我的使用场景,总体还说 PaddleOCR 不愧被大家成为:最强OCR之神!
从目前的格局来看,我还是比较看好 Gemini 的,主要可能还是在生态这块,注意来说下我的感受: 最近一直在和 Claude 4.5 Sonnet 聊天,聊出来很多很有价值的思路和脉络也受到了很多精神层面的洗礼,可以说之前的版本是做不到的,哪怕它现在还是以总结为主(可控制),但是,很多主客观点、思考方式、辩证想法、都像和一个更像启发者的角色在对话。Anthropic 前瞻性尤其针对企业的商业价值还是有比较深度的思考。 OpenAI Sora2 以及 昨天的 Dev Day,一如既往的往 C 端去覆盖以及更多的算力合作,不过从很多用户的截图,Sora 2 生成的视频有抖音的残影,有即梦的残影来看,如果是这样训练的话,那在视频这个赛道未来的几个月肯定也会群魔乱舞,拼的还是抢占入口。Agent 这个赛道就不重复了,成为基础建设这个是必然的。所以一直也有说,在 AI 这个赛道,千万不能下车,下车以后再想上来,太难了。 Google 这侧还是期待 Gemini 3,大家可以尝试,把一些需要联网推理的问题,直接丢给 Gemini 2.5 Pro,它可以通过世界数据硬推出来,当然在 API 这个层级路由有没有其他处理就不得而知了,但是,从众多测试来看,直接世界数据可能性比较大。从整体商业闭环来说,还是更看好 Google,毕竟多模态的语料全部自己闭环了,自有算力,而且,全部玩的是内网,还有强大的入口(搜索引擎、硬件设备)如果不受反垄断制约,这是可预见性的可怕!
今天是第四季度的第一天,在这个季度里,我们会发布全新的产品 CelHive,它会传承 Juchats 的优点,也会朝着的新的目标去努力,大家要的都会有! Say Hi to productivity and creativity! 思考: 我们之前想了很多名称,也想了很多域名,也和大家征集了很多,很多人体验 Agent 这个方向这么火,而且新产品也朝着这个方向去做,应该往这个方向去靠。我们的思考是:Agent 的确是方向,但是对于未来 AI 这个赛道来说,它可能只是浓墨重彩的一笔,不足以完全影响这个赛道的方向,通用 Agent 是必经之路,未来它会朝着真正的用户现实场景任务或落地个人用户PMF做基础建设!而创建这个闭环的基础就是:从生产力转向创造力!没有生产力,没有边界认知,创造力会受到巨大影响! 含义: CelHive = Cell + Hive 从细胞转向丰巢! Cell: 生命基本单元,具有独立功能,协同构成复杂有机体 Hive: 蜜蜂社会性昆虫典范(Intelligence),蜂巢象征高效协作(Collaboration)、分工明确(Productivity)、共同创造价值(Ecosystem)。 方向: 在新的产品设计中,并没有摒弃传统的对话窗口,在和很多用户讨论及观察中,我们发现对于生产力来说,传统对话窗口虽然不像画布那么有延展性,但是,整体的输出更趋向于信息阅读,配合三栏结构,可以产出更多的一目了然的结构信息,当然在交互体验方面产品面向于多元,更倾向于什么场景做什么事儿,这样才是相对符合和友好的状态。从生产力到创造力的转变,是 尝试 → 积累 → 沉淀 → 使用 的完整闭环,我们会着重的努力! 初心: 不忘初心,方得始终!依稀记得,2023 年,我们第一次给王川总介绍产品的时候,他问我:“这个产品的方向是如何的”我说:“AI + Human 让 多模态 产出 可用” 这一句话中的每个字,每个词,从 AI 真的发展阶段到现在,想做好都是非常艰难的,可以这么说!我们会持续努力的,我们也会更尊重用户的想法! 核心: 在 CelHive 中,曾经大家需要的,在我们的 Issues List 里面都有记录。 产品侧:我们会用更适合的模型来完成 Hive 体系,多模态模型也会根据生产力,通过我们自研网关接入(文 / 图 / 视频)模型,及完善的知识库体系,让产出更丰富。同时,也会控制产出结果,是时候为产出的最后 100 米做努力了! 运营侧:运营这个方向一直在尝试,之前也没有做的很好,新的产品中,我们会融入更多的用户社区、用户帮助、以及开放我们的 Roadmap,可以让大家来共创起来! 价值: 我们认为这个赛道,商业化是让用户安心的基础,同时行业价值才是根本,CelHive 会不断的产出领域或者核心功能的「最佳实践」,把这些最佳实践变成对行业真正有落地性、推动力的产出!也会做一些开源方向。这个赛道本来就没有护城河和所谓的壁垒,它的发展之快,让世界每天都发生变化!
考虑了一天了,到底要不要写,团队小伙伴劝我还是别写了,这里是推特,不是微博,我干啥不写呢?我不写我来推特是干啥呢?我从我的视角来说一说。 首先,我觉得啊,没必要纠结微信公众号排版这个事儿,他就是不好用啊,没啥好说的,你要问我,到底哪里不好用:「我对产品理解能力为零」,对于用户而言,感觉不好就一切不好,这个不是正常的事儿嘛,那为什么感觉不好呢?相信意见建议官方团队自己也看了很多,也可能没 KPI 在这里。不过我就没想明白,宝玉老师只是在我们大辉老师下面随口提了一嘴「用户诉求」,我想用户诉求和用户需求是有本质区别的吧,咱们大辉老师就盯着不放了。你必须说,你不说我没法给微信团队反馈,我的妈呀。这是凡尔赛 + PUA 嘛?我想说:“包龙星,你好大的官威啊!” 然后,最可恨的来了!!!突然,我们池大跳出来了,评论区和风月色,我理解是给我们大辉老师评论区礼仪了?然后,暗搓搓回去开始写小作文,按照池大说的社交礼仪,我觉得没必要再写小作文了吧,直接点名啊,这不是你的社交原则嘛?结果没有。你这不是妥妥的双标么?另外,我觉得不可理解的是,你在你评论区爆粗口?这就是所谓,你的地盘你说了算么?我都感觉我回到打土豪分田地的时代了。昨天大辉老师视频号说:“骂人是素质问题,你要是每天在家都是和家里人这么说话,那正常了”,你们俩一起在双标么?至于什么你做多少年技术,你抛弃 Markdown 了,这些事儿吧,我个人觉得好汉不提当年勇,你那破公众号不用 MD 也是正常的,你懂什么是视觉传达不?视觉传达和内容的层次的关系?当然不懂没关系,因为,大辉老师说过「你对设计传达能力理解为零」,一切都可以往这个新兴的网络热词里面套! 最后,我想说:“每个时代有这个时代的英雄,也有这个时代红利带来的效应,咱们不能红利吃完了,开始倒退吧”从 AI时代的来临,我一路看着宝玉老师对 AI 这个赛道的分享,思考,提供更多的优质资源翻译,当然你们也可以说,这些你们也能。但是,并没有!
昨天张哥来和我们讨论产品,午饭的时候讨论到一个话题:《鸡娃不如鸡自己,反正他们未来也找不到工作》哈哈哈,卧槽,我感觉这个话题太好了,我们娃都小,也都在考虑这个问题,我觉得他说的是对的,于是我开始看和 AI 共生的话题。张哥又给我补了一句,他说:“本来现在很多 Leader 都不把人当人了,那后面人机共生了,那人更不是人了,擦!”直到晚上睡觉,我还在想这个事儿,于是我拿起手机和 Juchats 聊,无意间看到了华为的这篇《智能世界2035》。刚想关掉,的确是对华为写的东西不感冒,扫了一眼目录,感觉还行,就读了起来,我先说我觉得还可以的地方,关于: - 算力技术革命(解决算力是根本问题) - 仓储和物流(我个人觉得这个方向可能是结合最快速的,它拥有强大的历史基础以及成熟的闭环体系) - 推动 AI 向善(安全是人工智能的风口浪尖,输入、输出、记忆都会产生安全问题,我个人觉得 AI 向善这个话题是全人类的。虽然,目前脑机、类脑方向也在蓬勃发展,但是,共生方向还太遥远) 这是看到还不错的,其他的方向感觉依然会出现落地问题比如说什么《设计即制造,制造即服务》 还有就是:引用的数据有点杂乱,有些非常老旧,当然也需要某些历史数据支撑,但是,从别的地方复制过来,Unicode 格式编码没修改,导致英文字符联结链接,原始链接无法访问,这个问题有点太低级了。