时政
财经
科技
虚拟货币
其他
登录
#VLM
关注
meng shao
3周前
[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM,参数规模 3B,核心目标是从 LLM 的视角探索视觉编码器的作用,并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”,目的是高效处理图像中的文本提取和文档结构化任务,适用于 OCR 和文档数字化场景。 关键创新与架构 DeepSeek-OCR 的设计强调 LLM 中心化的视觉处理创新: · 视觉-文本压缩机制:通过动态分辨率处理(如 Gundam 模式,将图像裁剪为多个 640×640 块加一个 1024×1024 中心块),将视觉输入压缩为少量 token(例如 Base 模式下 256 个视觉 token),减少计算开销的同时保留高保真度。这不同于传统 VLM 的固定分辨率编码,更注重与 LLM 的无缝融合。 · 多模态提示支持:引入 grounding 提示(如“<|grounding|>”),允许模型针对性执行任务,如“Convert the document to markdown”用于结构化输出,或“Free OCR”用于纯文本提取。 · 训练策略:模型借鉴了 Vary 和 GOT-OCR2.0 等开源项目,聚焦于文档、图表和弱视觉信号的处理,支持 32 种语言的 OCR(包括中文和英文)。 这些创新使 DeepSeek-OCR 在处理复杂布局(如表格、图表)时表现出色,避免了传统 OCR 工具(如 Tesseract)的刚性限制。 性能表现 在基准测试中,DeepSeek-OCR 展现出高效性和准确性: · OCR 准确率:在 OCRBench 等数据集上,超越部分开源 VLM(如 Qwen-VL),尤其在手写体和低质量图像上表现稳健。 · 推理速度:使用 vLLM 引擎,在 A100-40G GPU 上处理 PDF 可达约 2500 token/s,支持并发批量评估。 · 分辨率适应:支持 Tiny(512×512)到 Large(1280×1280)模式,平衡精度与效率;在 OmniDocBench 等文档基准中,文档到 Markdown 转换的 F1 分数高于基线模型 5-10%。 它在资源受限环境下(如单 GPU)实现 SOTA(最先进)性能,但对极高分辨率图像的泛化仍需优化。 使用与应用 部署简单,支持 Hugging Face Transformers 和 vLLM: · 环境准备:Python 3.12+、CUDA 11.8、Torch 2.6.0,安装 flash-attn 和 vLLM。 · 应用场景:文档数字化(如 PDF 转 Markdown)、发票提取、学术论文图表解析。仓库提供可视化示例,展示从杂乱图像到结构化输出的效果。 开源模型
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#开源模型
#DeepSeek-OCR
#VLM
#视觉-文本压缩
#文档数字化
分享
评论 0
0
向阳乔木
1个月前
Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强! 一款新架构的视觉语言模型(VLM),用9B参数的MoE,实际激活参数仅2B。 视觉推理能力强:不仅能识别物体,还能理解复杂场景和指令。 易于训练和定制:可针对专业视觉任务训练,如医学影像、安防等复杂场景。 推理速度快:适合需要实时响应的应用,如无人机巡检、安防监控等。 运行成本低:适合大规模图片处理场景,降低企业使用门槛。 结构化输出与OCR:能直接生成JSON、Markdown等结构化数据,OCR识别能力显著提升。 已开放预览,支持在线体验和下载。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#Moondream3
#视觉语言模型
#VLM
#AI
#开源
分享
评论 0
0
Fiona ❤️& ✌️
2个月前
为什么机器人看起来笨笨的?结合最近看的奇幻电视剧,“妖变人没有那么简单”,“钢铁变人“也是如此。 机器人最重要的两部分,头脑和身体。简单说他的笨笨,是在替代做人这件事情上,他的头脑差一点,身体也差一点。本文先说上半部分,头脑🧠。 头脑如何变聪明,需要天量的数据训练。机器人的语言模型既有VLM(视觉-语言模型)又有LLM(大语言模型)。 为什么机器人需要 VLM?因为语言模型没有眼睛,只能“听懂”但看不到世界。比如你说“帮我拿起桌上左边的水杯”,机器人必须“看见”才能行动。单靠视觉模型也不够,视觉模型能识别物体,但不会理解人类语言和意图。 VLM = 融合大脑和眼睛 人类指令(语言)+ 环境感知(视觉) → 统一转化成动作计划。 我们现在所习惯的自动驾驶事实上也是VLM。只是自动驾驶需要学习的数据少的多。毕竟人形机器人模仿人,他的应用场景多样性和复杂度都是下一个维度。 而在VLM训练上,机器人所需的数据量和实际的数据量仍有巨大的差距。现在产生这些数据的方式主要是“动作捕捉”和“VR远程操作”。这种数据采集方式成本极高+效率低,贡献的数据量也不够。 同时这些来自特殊采集方式的数据往往缺少“泛化性”。机器人训练常常在干净、可控的环境:桌子上放几个常见物体(瓶子、杯子、积木)。但现实里:杯子可能是半透明的、反光的、被纸巾挡住一半。家里/工厂环境有各种干扰(杂物、噪音、人走来走去)。训练数据缺少这种“长尾情况”,所以一旦环境变化,机器人就“笨”了。
#机器人
#VLM
#数据训练
#泛化性
#人工智能
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞