#视觉语言模型

1个月前

Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强！一款新架构的视觉语言模型（VLM），用9B参数的MoE，实际激活参数仅2B。视觉推理能力强：不仅能识别物体，还能理解复杂场景和指令。易于训练和定制：可针对专业视觉任务训练，如医学影像、安防等复杂场景。推理速度快：适合需要实时响应的应用，如无人机巡检、安防监控等。运行成本低：适合大规模图片处理场景，降低企业使用门槛。结构化输出与OCR：能直接生成JSON、Markdown等结构化数据，OCR识别能力显著提升。已开放预览，支持在线体验和下载。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 19 条信息

#Moondream3 #视觉语言模型 #VLM #AI #开源

6个月前

苹果发布 FastVLM 能在 iPhone 上直接运行的极速视觉语言模型首 token 输出快 85 倍 FastVLM：先把图像看懂（图像 → token），再根据 token 生成回答或描述（token → 语言）模型体非常积小，可以很轻松部署在 iPhone、iPad、Mac 上 FastVLM-0.5B：相较于 LLaVA-OneVision-0.5B，首 token 输出快 85 倍，模型体积小 3.4 倍。 FastVLM-7B（+ Qwen2-7B LLM）：优于 Cambrian-1-8B，在相同精度下首 token 输出快 7.9 倍。

#苹果发布 #视觉语言模型 #FastVLM #iPhone #LLaVA-OneVision #技术创新 #极速

8个月前

olmOCR：可能是目前最好的开源OCR模型基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码，4090可以本地运行。 Github：模型：在线使用：

#开源 #OCR #视觉语言模型 #模型权重 #微调 #PDF #GitHub #4090