时政
财经
科技
虚拟货币
其他
登录
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限
智谱直播近日开源了其最新视觉模型GLM-4.5V,该模型基于其旗舰文本基础模型GLM-4.5-Air,拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色,达到了同规模模型中的SOTA性能,支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破,具备全场景视觉推理能力,能够处理复杂的图像推理和视频理解任务,预计将对AI视觉技术的发展产生深远影响。
3
·
16小时前
·
智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。 模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。 具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括: ·图像推理(场景理解、复杂多图分析、位置识别) ·视频理解(长
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞