智谱直播近日开源了其最新视觉模型GLM-4.5V,该模型基于其旗舰文本基础模型GLM-4.5-Air,拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色,达到了同规模模型中的SOTA性能,支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破,具备全场景视觉推理能力,能够处理复杂的图像推理和视频理解任务,预计将对AI视觉技术的发展产生深远影响。
基于多源数据的智能分析与洞察
此次事件主要围绕智谱AI及其他公司在视觉模型领域的进展与竞争,展示了多模态模型的快速发展与应用场景的扩展。智谱AI的GLM-4.5V和GLM-4.6模型在视觉理解和编程能力上取得了显著提升,标志着视觉语言模型的技术进步。同时,其他公司如Google、阿里巴巴等也在推出各自的视觉模型,推动了整个行业的创新与发展。
阿里巴巴通义千问团队发布的 Qwen3-VL,正是这样一款跨越视觉与语言边界的模型。 它不仅能理解文字、生成内容,还能“看图识意”、“看视频理解场景”、“解析界面元素”,甚至自动生成 HTML/CSS 代码,让 AI 真正具备“视觉思考能力”。 核心亮点 ·视觉理解飞跃:能看懂图片、网页、PDF、视频帧,进行语义推理和内容描述。 ·视觉编码生成:自动识别界面并生成 HTML/CSS/JS 代码
[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM,参数规模 3B,核心目标是从 LLM 的视角探索视觉编码器的作用,并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”,目的是高效处理图像中的文本提取和文档结构化任务,适用于 OCR 和文档数字化场景。 关键创新与架构 DeepSeek-OCR 的设计强调 LLM
智谱AI发布GLM-4.6模型,提升了代码能力和推理能力,进一步增强了模型的应用范围。
其他公司如Google和阿里巴巴也在积极推出视觉模型,推动整个行业的技术演进,显示出视觉模型的广泛应用潜力。
新兴模型如Moondream3和DeepSeek-OCR等的发布,展示了不同架构和应用场景下的视觉推理能力,进一步丰富了市场选择。
智谱直播开源其最新视觉模型GLM-4.5V,强调其在视觉语言基准测试中的优越表现,标志着智谱AI在视觉模型领域的进展。