Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强！一款新架构的视觉语言模型（VLM），用9B参数的MoE，实际激活参数仅2B。视觉推理能力强：不仅能识别物体，还能理解复杂场景和指令。易于训练和定制：可针对专业视觉任务训练，如医学影像、安防等复杂场景。推理速度快：适合需要实时响应的应用，如无人机巡检、安防监控等。运行成本低：适合大规模图片处

#Moondream3 #视觉语言模型 #VLM #AI #开源

相关新闻

Jiayuan (JY) Zhang

1小时前

预告一个过去几个月我们内部在开发 & 使用的 Agent 产品：Multica 一个开源的 AI 员工平台，支持把团队的算力资源（claude code, codex 等）注册到一个 workspace 中，并像 Linear 一样来管理这些 agent。目前还非常早期，预计最近一段时间会正式发布。

小牛

2小时前

豆包成中国老年人的树洞了！ AI 这一刻价值呈现了一点点😵‍💫੯‧̀͡⬮\

sitin

3小时前

刷 GitHub，看到几个给 AI Agent“接互联网”的开源项目 1.web-access 给 Claude Code 补完整上网能力，它可以直接接管你正在用的 Chrome，连登录态都能复用。你已经登录的小红书、GitHub、各种网站，AI 都能直接进去看。还可以开子 Agent 并行查资料，查多个网站时速度明显快很多。 2.Lightpanda 它是直接从零造了一个给机器用的浏览

sitin

6小时前

GitHub 最近刷到一个挺狠的项目：Project NOMAD，13.5k Star。它最打动我的点不是“功能多”，而是——断网也能用。现在大家都在聊 AI、多模态、智能体，但很多工具本质上都绑死在云端。NOMAD 反着来：它把本地 AI 聊天、离线维基、Khan Academy 课程、离线地图、笔记、加密工具这些东西，全打包进一台机器里。装好之后，就算拔掉网线，照样能查资料、学东西、跑本

indigo

7小时前

The future is now ✨ Tesla 正在引领物理世界 AI 的未来

关联事件

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限

智谱直播近日开源了其最新视觉模型GLM-4.5V，该模型基于其旗舰文本基础模型GLM-4.5-Air，拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色，达到了同规模模型中的SOTA性能，支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破，具备全场景视觉推理能力，能够处理复杂的图像推理和视频理解任务，预计将对AI视觉技术的发展产生深远影响。