近期AI浏览器方向、新模型方向依旧火热,不过随着 DeepSeek-OCR开源的革命性文字识别模型到来,也迎来了模型OCR这个赛道的新纪元,无论是 光学压缩技术 还是 模拟人类记忆机制,相信在这个赛道不会缺乏新的追逐,而且,这是传统ETL的基础。 于是,这两天我观察了一下各大模型平台的OCR模型竞争,Huggingface 和 ModelScope,我发现了一个老朋友,PaddleOCR-VL(而且,连续5天HuggingFace Trending 第一)。我把 DeepSeek-OCR 和 PaddleOCR-VL 进行了一些使用性场景对比。 首先,对比一下两个模型: PaddleOCR-VL - 轻量级、开箱即用的完整方案 - 广泛的多语言覆盖(109种语言) - 成熟的工业级生态和工具链 - 多种调用方式(命令行、Python API、vLLM 加速) - 最低的硬件部署门槛(0.9B) DeepSeek-OCR - 视觉文本压缩技术 - 处理超长文档的效率 - 二次开发和学术研究基座 - 高效的训练数据生成能力 从目前来看,PaddleOCR-VL 0.9B 模型大小在低GPU应用场景里当属佼佼者,并且Benchmark依然强悍!之前在很多开源社区以及项目中就关注到PaddleOCR-VL。 从几个我亲自实践的场景Case来看,这两个模型输出的结构标注都非常完善,没有出现错标。但是,部分比较复杂的页面出现了漏标。而且,从对比来看,PaddleOCR-VL 对页面内容的清洗和过滤做过微调,比如很细微的页眉页脚、一些无关紧要的内容会被过滤掉,而 DeepSeek-OCR 则会保留这些内容。 我的几个实验场景: - 古文印刷在第一次识别中DeepSeek-OCR 会产生莫名的重复字符,第二次会回归正常,而在重新进行的三次测试中 PaddleOCR-VL 的确输出稳定。 - 表格解析双方都非常稳定且内容质量对比相差不大。 - 复杂公式和手写字体 DeepSeek-OCR 偶尔会出现缺失,PaddleOCR-VL非常稳定,相关图像存储、标记、非常准确。 总结下适用场景 PaddleOCR-VL: - 对部署成本敏感的场景 - 需要多语言支持的全球化应用 - 要求端到端完整解决方案的企业项目 - 需要快速落地的工业级应用 DeepSeek-OCR: - 长文档处理的算力优化需求 - 需要极致压缩效率的场景 - 进行二次开发和学术研究 - 需要高效数据生成的训练场景 基于我的使用场景,总体还说 PaddleOCR 不愧被大家成为:最强OCR之神!
从目前的格局来看,我还是比较看好 Gemini 的,主要可能还是在生态这块,注意来说下我的感受: 最近一直在和 Claude 4.5 Sonnet 聊天,聊出来很多很有价值的思路和脉络也受到了很多精神层面的洗礼,可以说之前的版本是做不到的,哪怕它现在还是以总结为主(可控制),但是,很多主客观点、思考方式、辩证想法、都像和一个更像启发者的角色在对话。Anthropic 前瞻性尤其针对企业的商业价值还是有比较深度的思考。 OpenAI Sora2 以及 昨天的 Dev Day,一如既往的往 C 端去覆盖以及更多的算力合作,不过从很多用户的截图,Sora 2 生成的视频有抖音的残影,有即梦的残影来看,如果是这样训练的话,那在视频这个赛道未来的几个月肯定也会群魔乱舞,拼的还是抢占入口。Agent 这个赛道就不重复了,成为基础建设这个是必然的。所以一直也有说,在 AI 这个赛道,千万不能下车,下车以后再想上来,太难了。 Google 这侧还是期待 Gemini 3,大家可以尝试,把一些需要联网推理的问题,直接丢给 Gemini 2.5 Pro,它可以通过世界数据硬推出来,当然在 API 这个层级路由有没有其他处理就不得而知了,但是,从众多测试来看,直接世界数据可能性比较大。从整体商业闭环来说,还是更看好 Google,毕竟多模态的语料全部自己闭环了,自有算力,而且,全部玩的是内网,还有强大的入口(搜索引擎、硬件设备)如果不受反垄断制约,这是可预见性的可怕!
今天是第四季度的第一天,在这个季度里,我们会发布全新的产品 CelHive,它会传承 Juchats 的优点,也会朝着的新的目标去努力,大家要的都会有! Say Hi to productivity and creativity! 思考: 我们之前想了很多名称,也想了很多域名,也和大家征集了很多,很多人体验 Agent 这个方向这么火,而且新产品也朝着这个方向去做,应该往这个方向去靠。我们的思考是:Agent 的确是方向,但是对于未来 AI 这个赛道来说,它可能只是浓墨重彩的一笔,不足以完全影响这个赛道的方向,通用 Agent 是必经之路,未来它会朝着真正的用户现实场景任务或落地个人用户PMF做基础建设!而创建这个闭环的基础就是:从生产力转向创造力!没有生产力,没有边界认知,创造力会受到巨大影响! 含义: CelHive = Cell + Hive 从细胞转向丰巢! Cell: 生命基本单元,具有独立功能,协同构成复杂有机体 Hive: 蜜蜂社会性昆虫典范(Intelligence),蜂巢象征高效协作(Collaboration)、分工明确(Productivity)、共同创造价值(Ecosystem)。 方向: 在新的产品设计中,并没有摒弃传统的对话窗口,在和很多用户讨论及观察中,我们发现对于生产力来说,传统对话窗口虽然不像画布那么有延展性,但是,整体的输出更趋向于信息阅读,配合三栏结构,可以产出更多的一目了然的结构信息,当然在交互体验方面产品面向于多元,更倾向于什么场景做什么事儿,这样才是相对符合和友好的状态。从生产力到创造力的转变,是 尝试 → 积累 → 沉淀 → 使用 的完整闭环,我们会着重的努力! 初心: 不忘初心,方得始终!依稀记得,2023 年,我们第一次给王川总介绍产品的时候,他问我:“这个产品的方向是如何的”我说:“AI + Human 让 多模态 产出 可用” 这一句话中的每个字,每个词,从 AI 真的发展阶段到现在,想做好都是非常艰难的,可以这么说!我们会持续努力的,我们也会更尊重用户的想法! 核心: 在 CelHive 中,曾经大家需要的,在我们的 Issues List 里面都有记录。 产品侧:我们会用更适合的模型来完成 Hive 体系,多模态模型也会根据生产力,通过我们自研网关接入(文 / 图 / 视频)模型,及完善的知识库体系,让产出更丰富。同时,也会控制产出结果,是时候为产出的最后 100 米做努力了! 运营侧:运营这个方向一直在尝试,之前也没有做的很好,新的产品中,我们会融入更多的用户社区、用户帮助、以及开放我们的 Roadmap,可以让大家来共创起来! 价值: 我们认为这个赛道,商业化是让用户安心的基础,同时行业价值才是根本,CelHive 会不断的产出领域或者核心功能的「最佳实践」,把这些最佳实践变成对行业真正有落地性、推动力的产出!也会做一些开源方向。这个赛道本来就没有护城河和所谓的壁垒,它的发展之快,让世界每天都发生变化!