智谱直播近日开源了其最新视觉模型GLM-4.5V,该模型基于其旗舰文本基础模型GLM-4.5-Air,拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色,达到了同规模模型中的SOTA性能,支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破,具备全场景视觉推理能力,能够处理复杂的图像推理和视频理解任务,预计将对AI视觉技术的发展产生深远影响。
基于多源数据的智能分析与洞察
智谱直播发布了其最新的视觉模型GLM-4.5V,标志着在多模态视觉推理领域的重要进展。该模型基于GLM-4.5-Air,具有强大的参数配置和出色的性能表现,能够处理多种视觉内容,满足不同应用需求。
Google 研究揭示:Veo 3 达到了视觉AI领域的“GPT-3”时刻 Google DeepMind 通过对Veo 3进行18,384个最简单的视频生成任务测试后,发现: Veo 3,除了生成视频,还能在没有训练的情况下,自动完成各种复杂的视觉任务,比如找物体、修照片、玩迷宫、解数独。 它可以: - 看懂图像:自动识别边缘、轮廓、物体位置、颜色、形状等; - 理解物理:知道什么会
Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强! 一款新架构的视觉语言模型(VLM),用9B参数的MoE,实际激活参数仅2B。 视觉推理能力强:不仅能识别物体,还能理解复杂场景和指令。 易于训练和定制:可针对专业视觉任务训练,如医学影像、安防等复杂场景。 推理速度快:适合需要实时响应的应用,如无人机巡检、安防监控等。 运行成本低:适合大规模图片处
智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。 模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。 具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括: ·图像推理(场景理解、复杂多图分析、位置识别) ·视频理解(长