时政
财经
科技
虚拟货币
其他
登录
#视觉语言模型
关注
向阳乔木
1周前
Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强! 一款新架构的视觉语言模型(VLM),用9B参数的MoE,实际激活参数仅2B。 视觉推理能力强:不仅能识别物体,还能理解复杂场景和指令。 易于训练和定制:可针对专业视觉任务训练,如医学影像、安防等复杂场景。 推理速度快:适合需要实时响应的应用,如无人机巡检、安防监控等。 运行成本低:适合大规模图片处理场景,降低企业使用门槛。 结构化输出与OCR:能直接生成JSON、Markdown等结构化数据,OCR识别能力显著提升。 已开放预览,支持在线体验和下载。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 9 条信息
#Moondream3
#视觉语言模型
#VLM
#AI
#开源
分享
评论 0
0
小互
4个月前
苹果发布 FastVLM 能在 iPhone 上直接运行的极速视觉语言模型 首 token 输出快 85 倍 FastVLM:先把图像看懂(图像 → token),再根据 token 生成回答或描述(token → 语言) 模型体非常积小,可以很轻松部署在 iPhone、iPad、Mac 上 FastVLM-0.5B:相较于 LLaVA-OneVision-0.5B, 首 token 输出快 85 倍,模型体积小 3.4 倍。 FastVLM-7B(+ Qwen2-7B LLM):优于 Cambrian-1-8B,在相同精度下 首 token 输出快 7.9 倍。
#苹果发布
#视觉语言模型
#FastVLM
#iPhone
#LLaVA-OneVision
#技术创新
#极速
分享
评论 0
0
Gorden Sun
6个月前
olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github: 模型: 在线使用:
#开源
#OCR
#视觉语言模型
#模型权重
#微调
#PDF
#GitHub
#4090
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞