#谷歌Veo3

5个月前

谷歌发布的Veo3的核心技术CoF（视觉模型思维链），正在推动视觉模型从特定任务模型到通用视觉模型的演进，犹如当年大语言模型经历了NLP到LLM的进化，视觉模型也在经历从特定任务的CV到通用视觉基础模型的进化。 Veo 3 有很强的泛化能力，其在未训练任务上表现出极强的零样本能力，如物体分割、边缘检测、物理模拟和迷宫求解等。通过 18,384 个生成视频评估 62 个定性任务和 7 个定量任务，证明视频模型可成为通用视觉基础模型，其不仅是视频生成模型还是视觉感知基础模型。 Veo 3 像 LLM 改变文字一样，推动视频 AI 向通用基础模型演进，降低门槛，促进教育和研究创新，这篇论文将成为通用视觉基础模型的一个重要基石。核心论文：

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#谷歌Veo3 #视觉模型思维链CoF #通用视觉模型 #零样本能力 #视频AI

5个月前

还是谷歌的Veo3最能打。对比了下，Veo3和最近可灵、即梦、通义、夸克造点的视频模型。谷歌Gemini Veo3提示词分享：儿童街舞对决创建一个充满活力、电影感的男女儿童街舞对决视频，跳的是Popping。场景是一个专业的剧院舞台，拥有动态、多彩的舞台灯光，以及一个投射着抽象霓虹风格背景的大型LED屏幕。所有舞者都是6-8岁的儿童。镜头运用应充满动感，结合使用广角镜头捕捉团体舞蹈和特写镜头展现角色情感。整体基调是俏皮、富有竞争性且鼓舞人心的。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#谷歌Veo3 #儿童街舞 #Popping #剧院舞台 #积极

9个月前

谷歌Veo3赛博朋克场景 - 在夜市寻找她联系人提供的信息。 🔊🔊 来自：Stevie Mac

#谷歌Veo3 #赛博朋克 #夜市