关键人物/组织

发布Veo3

升级到 4.6,视觉推理突破

Google DeepMind

开发Veo 3

魔改

推出AI模型,文本基础模型

开源视觉模型

开源FG-CLIP 2

公司

魔改

支持GLM-4.6

智谱MaaS平台

支持GLM-4.6

发布模型

魔改

Claude4.5 sonnet

魔改

编程能力

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限

2025-08-14

127 次查看

0 次互动

智谱直播近日开源了其最新视觉模型GLM-4.5V，该模型基于其旗舰文本基础模型GLM-4.5-Air，拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色，达到了同规模模型中的SOTA性能，支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破，具备全场景视觉推理能力，能够处理复杂的图像推理和视频理解任务，预计将对AI视觉技术的发展产生深远影响。

AI 智能分析

基于多源数据的智能分析与洞察

此次事件主要围绕智谱AI及其他公司在视觉模型领域的进展与竞争，展示了多模态模型的快速发展与应用场景的扩展。智谱AI的GLM-4.5V和GLM-4.6模型在视觉理解和编程能力上取得了显著提升，标志着视觉语言模型的技术进步。同时，其他公司如Google、阿里巴巴等也在推出各自的视觉模型，推动了整个行业的创新与发展。

事件发展趋势

• 视觉模型技术快速迭代与升级
• 多模态模型的应用场景不断扩展
• 行业内竞争加剧，各大公司积极开源与发布新模型

关键洞察

• 视觉理解能力的提升将推动AI在更多实际应用中的落地
• 开源策略有助于技术的快速传播与社区的共同发展
• 未来的模型将更加注重多模态融合，提升智能体的综合能力

政策建议

• 关注行业内各大公司的技术动态与开源项目
• 探索多模态模型在特定行业中的应用潜力
• 加强对新模型的测试与评估，以推动技术的持续进步

AI 分析基于公开数据，仅供参考，不构成任何建议

事件时间线

2025-11-27

10:53

通义开源的Z-Image-Turbo图片模型太强了仅6B大小，1秒出图，但是质量却非常非常高，人物真实、美学在线，天然认识各种名人，没有审核，绝对是本地AI绘画的首选模型。模型：在线使用：

来源：

Gorden Sun

2025-11-25

15:39

今天使用 MinerU 作为本地的文档解析器，发现使用 VLM 模式，对于图片 OCR 的处理效果特别好，文本、图片、布局都处理的比较 OK。MinerU Backend 两大类：传统 Pipeline 模式和 VLM（视觉语言模型）模式， VLM 是OpenDataLab 自研的端到端大模型效果很能打。

来源：

Limbo

2025-11-06

17:48

石锤! Windsurf 的新模型 SWE-1.5 更像 GLM-4.5! 之前网传硅谷的公司已经在内部开始大面积用国产开放权重大模型来魔改了, 传的尤其猛的是 Cursor 的 Composer-1 是用 DeepSeek 魔改(后训练或微调)的, 而 Windsurf 的 SWE-1.5 是用 GLM-4.6 魔改的. 而上一个基本已经石锤了, 这个还没有被验证, 于是给大家整个活, 看看

来源：

karminski-牙医

2025-11-05

16:12

试了下 360 开源的 FG-CLIP 2，直接把传统 AI 视觉理解给秒了。以前让 AI 画「猫站在蓝色跑车左边，后面是白色 SUV」，它连「后面」这个空间关系都搞不懂。搜「红色特斯拉引擎盖上有鸟粪」，两排图下来对得上的就一张。这就是传统 CLIP 的通病 —— 近视，看不清细节。 FG-CLIP 2 能干嘛？通过毛发纹理分辨狸花猫和英短，看懂屏幕里面的内容，理解「机

来源：

sitin

2025-10-25

21:44

美团开源视频模型LongCat-Video 13.6B参数，效果还可以，但是比不上Wan。项目地址：模型：

来源：

Gorden Sun

2025-10-24

08:50

glm4.6在国产编程能力算top1了，从不少朋友的反馈和调用量可见一斑。但是离Claude4.5 sonnet还有不小距离，加油！

来源：

向阳乔木

2025-10-22

12:26

阿里巴巴通义千问团队发布的 Qwen3-VL，正是这样一款跨越视觉与语言边界的模型。它不仅能理解文字、生成内容，还能“看图识意”、“看视频理解场景”、“解析界面元素”，甚至自动生成 HTML/CSS 代码，让 AI 真正具备“视觉思考能力”。核心亮点 ·视觉理解飞跃：能看懂图片、网页、PDF、视频帧，进行语义推理和内容描述。 ·视觉编码生成：自动识别界面并生成 HTML/CSS/JS 代码

来源：

sitin

2025-10-21

12:31

Andrej Karpathy提出了一个很激进的想法：所有LLM的输入都应该是图像，包括纯文本。什么意思？传统的大语言模型：文本 → tokenizer → LLM → 输出 Andrej的vision：文本 → 渲染成图片 → LLM → 输出即使你要输入的就是纯文本，也先把它渲染成图片，再喂给模型。为什么这么做？他给了4个理由： 1. 信息压

来源：

AI进化论-花生

2025-10-20

22:52

[开源模型] DeepSeek-OCR: DeepSeek 最新开源的 VLM，参数规模 3B，核心目标是从 LLM 的视角探索视觉编码器的作用，并推动视觉-文本压缩技术的边界。该模型被命名为“Contexts Optical Compression”，目的是高效处理图像中的文本提取和文档结构化任务，适用于 OCR 和文档数字化场景。关键创新与架构 DeepSeek-OCR 的设计强调 LLM

来源：

meng shao

22:18

interesting 我还以为是个OCR光学字符识别模型，结果貌似打通了多模态vLLM。

来源：

$𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞$

2025-10-16

22:43

Paddle OCR 确实很久以来都是中文OCR的头把交椅。新的VLM模型也出来了，可以试试。

来源：

九原客

2025-10-02

21:30

谷歌发布的Veo3的核心技术CoF（视觉模型思维链），正在推动视觉模型从特定任务模型到通用视觉模型的演进，犹如当年大语言模型经历了NLP到LLM的进化，视觉模型也在经历从特定任务的CV到通用视觉基础模型的进化。 Veo 3 有很强的泛化能力，其在未训练任务上表现出极强的零样本能力，如物体分割、边缘检测、物理模拟和迷宫求解等。通过 18,384 个生成视频评估 62 个定性任务和 7 个定量任务，

来源：

AIGCLINK

2025-09-30

17:18

智谱AI推出的最新一代通用AI模型：GLM-4.6 代码能力提升了 27% 上下文扩展到200K 推理和写作能力提升全面适配国产芯片编码能力与Claude Sonnet 4 相比，GLM-4.6 有一定优势但在编程方面仍略逊于 Claude Sonnet 4.5

来源：

16:51

智谱MaaS平台，、智谱清言已支持GLM-4.6 海外用户可通过使用API 技术博客：

来源：

AIGCLINK

16:51

刚刚，智谱最新旗舰模型：GLM-4.6出来了，核心亮点代码能力大幅提升，较GLM-4.5提升了27% 在公开基准与真实编程任务中，GLM-4.6的代码能力说是对齐Claude Sonnet 4 上下文窗口由128K提升到了200K，这就能更好的处理复杂的代码项目和需要长程记忆的智能体任务推理能力提升，支持在推理过程中调用工具搜索能力、写作能力增强，写作风格和可读性更贴近人类偏好，在角色

来源：

AIGCLINK

16:23

太棒了，智谱升级到 4.6 刚发现，只要是支持 OpenAI 协议的工具，都可以通过替换请求的 API 链接来接入 GLM-4.6 模型及 GLM 编程套餐例如： Cursor、ChatWise、Gemini CLI、Cherry 使用 GLM 编程套餐时，需要配置专属的 Coding API 端点

来源：

nicekate

2025-09-28

17:25

Google 研究揭示：Veo 3 达到了视觉AI领域的“GPT-3”时刻 Google DeepMind 通过对Veo 3进行18,384个最简单的视频生成任务测试后，发现： Veo 3，除了生成视频，还能在没有训练的情况下，自动完成各种复杂的视觉任务，比如找物体、修照片、玩迷宫、解数独。它可以: - 看懂图像：自动识别边缘、轮廓、物体位置、颜色、形状等； - 理解物理：知道什么会

来源：

2025-09-23

23:29

Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强！一款新架构的视觉语言模型（VLM），用9B参数的MoE，实际激活参数仅2B。视觉推理能力强：不仅能识别物体，还能理解复杂场景和指令。易于训练和定制：可针对专业视觉任务训练，如医学影像、安防等复杂场景。推理速度快：适合需要实时响应的应用，如无人机巡检、安防监控等。运行成本低：适合大规模图片处

来源：

向阳乔木

2025-08-14

16:10

智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，总参数106B，激活参数12B。模型基于智谱新一代文本基座模型GLM-4.5-Air，综合效果在41个公开视觉多模态榜单中达到SOTA水平，支持图像、视频、文档理解及GUI Agent等任务。具备覆盖不同种视觉内容的处理能力，实现全场景视觉推理，包括： ·图像推理（场景理解、复杂多图分析、位置识别） ·视频理解（长

来源：

sitin

2025-08-11

21:56

GLM-4.5V：智谱开源视觉模型 106B总参数，12B激活参数，开源最佳视觉模型。模型：

来源：

Gorden Sun

21:36

刚刚，智谱直播开源其最新视觉模型：GLM-4.5V，多模态，支持图像、视频输入 GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座（106B 参数，12B 有源），延续了 GLM-4.1V-Thinking 的技术路线，在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能，涵盖了图像、视频和文档理解等常见任务，以及 GUI 代理操作。实现

来源：

AIGCLINK

相关信息

9个月前

Google Gemini 2.5发布引发AI模型性价比热议

9个月前

OpenAI大幅降价，o3模型API调用费用骤降80%

9个月前

马斯克Grok再升级，4代直播发布引爆AI

9个月前

AI高考数学测试：O3意外落后，Gemini夺冠引发热议

9个月前

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议

9个月前

深度学习模型升级引发AI能力大跃进，行业迎新变革

9个月前

中国DeepSeek引发美国科技股暴跌事件

9个月前

MiniMax M1发布：开源长上下文推理模型引发AI领域震动

9个月前

AI视频井喷：Midjourney领跑，多模态混战