关键人物/组织

智谱直播近日开源了其最新视觉模型GLM-4.5V，该模型基于其旗舰文本基础模型GLM-4.5-Air，拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色，达到了同规模模型中的SOTA性能，支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破，具备全场景视觉推理能力，能够处理复杂的图像推理和视频理解任务，预计将对AI视觉技术的发展产生深远影响。

AI 智能分析

基于多源数据的智能分析与洞察

此次事件主要围绕智谱AI及其他公司在视觉模型领域的进展与竞争，展示了多模态模型的快速发展与应用场景的扩展。智谱AI的GLM-4.5V和GLM-4.6模型在视觉理解和编程能力上取得了显著提升，标志着视觉语言模型的技术进步。同时，其他公司如Google、阿里巴巴等也在推出各自的视觉模型，推动了整个行业的创新与发展。

事件发展趋势

• 视觉模型技术快速迭代与升级
• 多模态模型的应用场景不断扩展
• 行业内竞争加剧，各大公司积极开源与发布新模型

关键洞察

• 视觉理解能力的提升将推动AI在更多实际应用中的落地
• 开源策略有助于技术的快速传播与社区的共同发展
• 未来的模型将更加注重多模态融合，提升智能体的综合能力

政策建议

• 关注行业内各大公司的技术动态与开源项目
• 探索多模态模型在特定行业中的应用潜力
• 加强对新模型的测试与评估，以推动技术的持续进步

AI 分析基于公开数据，仅供参考，不构成任何建议

来源

美团开源视频模型LongCat-Video 13.6B参数，效果还可以，但是比不上Wan。项目地址：模型：

Gorden Sun

阿里巴巴通义千问团队发布的 Qwen3-VL，正是这样一款跨越视觉与语言边界的模型。它不仅能理解文字、生成内容，还能“看图识意”、“看视频理解场景”、“解析界面元素”，甚至自动生成 HTML/CSS 代码，让 AI 真正具备“视觉思考能力”。核心亮点 ·视觉理解飞跃：能看懂图片、网页、PDF、视频帧，进行语义推理和内容描述。 ·视觉编码生成：自动识别界面并生成 HTML/CSS/JS 代码

sitin

[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM，参数规模 3B，核心目标是从 LLM 的视角探索视觉编码器的作用，并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”，目的是高效处理图像中的文本提取和文档结构化任务，适用于 OCR 和文档数字化场景。关键创新与架构 DeepSeek-OCR 的设计强调 LLM

meng shao

全部显示

事件时间线

2025-09-30

16:23

智谱AI发布GLM-4.6模型，提升了代码能力和推理能力，进一步增强了模型的应用范围。

来源数量：4

2025-09-28

17:25

其他公司如Google和阿里巴巴也在积极推出视觉模型，推动整个行业的技术演进，显示出视觉模型的广泛应用潜力。

来源数量：3

2025-09-23

23:29

新兴模型如Moondream3和DeepSeek-OCR等的发布，展示了不同架构和应用场景下的视觉推理能力，进一步丰富了市场选择。

来源数量：3

2025-08-11

21:36

智谱直播开源其最新视觉模型GLM-4.5V，强调其在视觉语言基准测试中的优越表现，标志着智谱AI在视觉模型领域的进展。

来源数量：3

关键人物/组织

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限

AI 智能分析

事件发展趋势

关键洞察

政策建议

13条来源

事件时间线

相关信息