#Moondream3

6个月前

Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强！一款新架构的视觉语言模型（VLM），用9B参数的MoE，实际激活参数仅2B。视觉推理能力强：不仅能识别物体，还能理解复杂场景和指令。易于训练和定制：可针对专业视觉任务训练，如医学影像、安防等复杂场景。推理速度快：适合需要实时响应的应用，如无人机巡检、安防监控等。运行成本低：适合大规模图片处理场景，降低企业使用门槛。结构化输出与OCR：能直接生成JSON、Markdown等结构化数据，OCR识别能力显著提升。已开放预览，支持在线体验和下载。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#Moondream3 #视觉语言模型 #VLM #AI #开源