olmOCR：可能是目前最好的开源OCR模型基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码，4090可以本地运行。 Github：模型：在线使用：

#开源 #OCR #视觉语言模型 #模型权重 #微调 #PDF #GitHub #4090

相关新闻

Jiayuan (JY) Zhang

1小时前

预告一个过去几个月我们内部在开发 & 使用的 Agent 产品：Multica 一个开源的 AI 员工平台，支持把团队的算力资源（claude code, codex 等）注册到一个 workspace 中，并像 Linear 一样来管理这些 agent。目前还非常早期，预计最近一段时间会正式发布。

sitin

3小时前

刷 GitHub，看到几个给 AI Agent“接互联网”的开源项目 1.web-access 给 Claude Code 补完整上网能力，它可以直接接管你正在用的 Chrome，连登录态都能复用。你已经登录的小红书、GitHub、各种网站，AI 都能直接进去看。还可以开子 Agent 并行查资料，查多个网站时速度明显快很多。 2.Lightpanda 它是直接从零造了一个给机器用的浏览

sitin

6小时前

GitHub 最近刷到一个挺狠的项目：Project NOMAD，13.5k Star。它最打动我的点不是“功能多”，而是——断网也能用。现在大家都在聊 AI、多模态、智能体，但很多工具本质上都绑死在云端。NOMAD 反着来：它把本地 AI 聊天、离线维基、Khan Academy 课程、离线地图、笔记、加密工具这些东西，全打包进一台机器里。装好之后，就算拔掉网线，照样能查资料、学东西、跑本

Tiger.Chew

1天前

github 上这个开关要关了，不然 github 可能拿你的私有仓库数据去训练。

Gorden Sun

2天前

飞书开源CLI工具 Agent可以直接操作飞书了，包括收发消息、创建和管理群、日常、文档、多维表格等几乎全部功能的支持，人能操作的以后都可以交给AI操作了。软件CLI化是趋势，但是飞书这一步操作确实很前卫，全面拥抱AI了。 Github：

olmOCR：可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码，4090可以本地运行。 Github： 模型： 在线使用：

相关新闻

olmOCR：可能是目前最好的开源OCR模型基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码，4090可以本地运行。 Github：模型：在线使用：