智谱直播近日开源了其最新视觉模型GLM-4.5V,该模型基于其旗舰文本基础模型GLM-4.5-Air,拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色,达到了同规模模型中的SOTA性能,支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破,具备全场景视觉推理能力,能够处理复杂的图像推理和视频理解任务,预计将对AI视觉技术的发展产生深远影响。
基于多源数据的智能分析与洞察
此次事件主要围绕智谱AI及其他公司在视觉模型领域的进展与竞争,展示了多模态模型的快速发展与应用场景的扩展。智谱AI的GLM-4.5V和GLM-4.6模型在视觉理解和编程能力上取得了显著提升,标志着视觉语言模型的技术进步。同时,其他公司如Google、阿里巴巴等也在推出各自的视觉模型,推动了整个行业的创新与发展。