时政
财经
科技
虚拟货币
其他
登录
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限
智谱直播近日开源了其最新视觉模型GLM-4.5V,该模型基于其旗舰文本基础模型GLM-4.5-Air,拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色,达到了同规模模型中的SOTA性能,支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破,具备全场景视觉推理能力,能够处理复杂的图像推理和视频理解任务,预计将对AI视觉技术的发展产生深远影响。
5
·
1天前
·
Google 研究揭示:Veo 3 达到了视觉AI领域的“GPT-3”时刻 Google DeepMind 通过对Veo 3进行18,384个最简单的视频生成任务测试后,发现: Veo 3,除了生成视频,还能在没有训练的情况下,自动完成各种复杂的视觉任务,比如找物体、修照片、玩迷宫、解数独。 它可以: - 看懂图像:自动识别边缘、轮廓、物体位置、颜色、形状等; - 理解物理:知道什么会
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞