#视频AI

5个月前

谷歌发布的Veo3的核心技术CoF（视觉模型思维链），正在推动视觉模型从特定任务模型到通用视觉模型的演进，犹如当年大语言模型经历了NLP到LLM的进化，视觉模型也在经历从特定任务的CV到通用视觉基础模型的进化。 Veo 3 有很强的泛化能力，其在未训练任务上表现出极强的零样本能力，如物体分割、边缘检测、物理模拟和迷宫求解等。通过 18,384 个生成视频评估 62 个定性任务和 7 个定量任务，证明视频模型可成为通用视觉基础模型，其不仅是视频生成模型还是视觉感知基础模型。 Veo 3 像 LLM 改变文字一样，推动视频 AI 向通用基础模型演进，降低门槛，促进教育和研究创新，这篇论文将成为通用视觉基础模型的一个重要基石。核心论文：

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#谷歌Veo3 #视觉模型思维链CoF #通用视觉模型 #零样本能力 #视频AI