#视频多模态

3个月前

gemini 3.0 pro 的视频多模态能力到底如何？炸裂体营销内容且不论，在这个实例上它确实不及格 🙅‍♂️ --- 继chatgpt 之后，gemini 3.0 pro 也支持视频的多模态输入了。测试了经典的 meme（来自美剧《毒枭》），处理思路是不错的，可惜在情绪解读上犯错了。 gemini 把一个快乐幸福愉悦的情绪解读为孤独、虚无、寂寞……因为张冠李戴，强行套用了另一个 meme（图 3），于是很多解读就属于自圆其说了。🤣 --- 虽然这个任务失败了，但 gemini 处理视频的思路还是很有趣的，值得看一下（注意其中的错误理解🤣）：视频识别 → 氛围分析 → 语义建构 → 背景关联 → 意义升华 → 自然语言输出。 1. 任务识别：先确认用户要做什么 Gemini 首先识别用户请求是“分析视频内容、说出理解和感受”。这个阶段等于锁定任务类型（视频分析）和输出风格（主观理解 + 情感）。 2. 基础观察：对视频进行初步整体扫描识别视频的基本信息：文件名（meme-happiness.mp4）、出现的角色（Pablo Escobar）、视频类型（meme 场景）、场景大意（孤独、等待）；这是建立针对内容的“基础表征”。 3. 细节分析：对视频做更深入的视觉拆解 gemini进入 frame-by-frame 或 scene-level 的分析： - 场景环境：空旷草地、阴云、静止的镜头 - 角色动作：站立、发呆、触脸、走动 - 情绪：孤独、无聊、忧郁这个阶段重点是“视觉细节 + 氛围感”。 4. 配乐与情绪：结合声音给出情感推断 gemini注意到背景音乐是类似 Narcos 主题曲《Tuyo》的拉丁风格，具有忧伤氛围。情绪判断依赖声音信号被强化。 5. 语义解释：把视觉 + 情绪合成为“意义” gemini 在这里尝试做“意义构建”：视频呈现一种孤独、等待、虚无；角色反差：强权者变成孤独普通人；“等待”是 meme 的核心意象。这是典型的 multimodal → 语义叙述。 6. 文化背景关联：将视频连接到大众文化的 Meme 语境 gemini识别出：这一段来自《Narcos》第二季，Pablo Escobar逃亡期间的孤独生活；互联网文化称之为 “Sad Pablo Escobar”； meme 的使用场景：等待、空虚、热闹之后的空落。这是“将视频解释回网络文化的语用场景”。 7. 反讽与情绪收束：根据文件名加一点 meta 层解释 gemini指出文件名“meme-happiness.mp4”与内容的悲伤形成反讽。这是主动构建幽默或观点的一种“meta-level contrast”。 8. 组织最终回答：结构化成一篇自然语言的解释文在经过完整 pipeline 后，Gemini 输出：来源背景、场景与情绪、meme 的文化意义、整体感受与反思；

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 3.0 Pro #视频多模态 #情绪解读失败 #Sad Pablo Escobar #反讽