sitin 0 关注者 关注 1个月前 智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。 模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。 具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括: ·图像推理(场景理解、复杂多图分析、位置识别) ·视频理解(长 #智谱 #GLM-4.5V #开源 #视觉推理模型 #多模态 前往原网页查看