智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限

智谱直播近日开源了其最新视觉模型GLM-4.5V,该模型基于其旗舰文本基础模型GLM-4.5-Air,拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色,达到了同规模模型中的SOTA性能,支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破,具备全场景视觉推理能力,能够处理复杂的图像推理和视频理解任务,预计将对AI视觉技术的发展产生深远影响。
5
 ·  1天前 · Google 研究揭示:Veo 3 达到了视觉AI领域的“GPT-3”时刻 Google DeepMind 通过对Veo 3进行18,384个最简单的视频生成任务测试后,发现: Veo 3,除了生成视频,还能在没有训练的情况下,自动完成各种复杂的视觉任务,比如找物体、修照片、玩迷宫、解数独。 它可以: - 看懂图像:自动识别边缘、轮廓、物体位置、颜色、形状等; - 理解物理:知道什么会
© 2025 news.news. All rights reserved. 0.00548 秒. v1.0.46
我的评论