谷歌发布的Veo3的核心技术CoF（视觉模型思维链），正在推动视觉模型从特定任务模型到通用视觉模型的演进，犹如当年大语言模型经历了NLP到LLM的进化，视觉模型也在经历从特定任务的CV到通用视觉基础模型的进化。 Veo 3 有很强的泛化能力，其在未训练任务上表现出极强的零样本能力，如物体分割、边缘检测、物理模拟和迷宫求解等。通过 18,384 个生成视频评估 62 个定性任务和 7 个定量任务，

#谷歌Veo3 #视觉模型思维链CoF #通用视觉模型 #零样本能力 #视频AI

相关新闻

松果先森

5个月前

还是谷歌的Veo3最能打。对比了下，Veo3和最近可灵、即梦、通义、夸克造点的视频模型。谷歌Gemini Veo3提示词分享：儿童街舞对决创建一个充满活力、电影感的男女儿童街舞对决视频，跳的是Popping。场景是一个专业的剧院舞台，拥有动态、多彩的舞台灯光，以及一个投射着抽象霓虹风格背景的大型LED屏幕。所有舞者都是6-8岁的儿童。镜头运用应充满动感，结合使用广角镜头捕捉团体舞蹈和特

AI Will

9个月前

谷歌Veo3赛博朋克场景 - 在夜市寻找她联系人提供的信息。 🔊🔊 来自：Stevie Mac

关联事件

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限

智谱直播近日开源了其最新视觉模型GLM-4.5V，该模型基于其旗舰文本基础模型GLM-4.5-Air，拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色，达到了同规模模型中的SOTA性能，支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破，具备全场景视觉推理能力，能够处理复杂的图像推理和视频理解任务，预计将对AI视觉技术的发展产生深远影响。