时政
财经
科技
虚拟货币
其他
登录
#视频多模态
关注
howie.serious
9小时前
gemini 3.0 pro 的视频多模态能力到底如何?炸裂体营销内容且不论,在这个实例上它确实不及格 🙅♂️ --- 继chatgpt 之后,gemini 3.0 pro 也支持视频的多模态输入了。 测试了经典的 meme(来自美剧《毒枭》),处理思路是不错的,可惜在情绪解读上犯错了。 gemini 把一个快乐幸福愉悦的情绪解读为孤独、虚无、寂寞……因为张冠李戴,强行套用了另一个 meme(图 3),于是很多解读就属于自圆其说了。🤣 --- 虽然这个任务失败了,但 gemini 处理视频的思路还是很有趣的,值得看一下(注意其中的错误理解🤣): 视频识别 → 氛围分析 → 语义建构 → 背景关联 → 意义升华 → 自然语言输出。 1. 任务识别:先确认用户要做什么 Gemini 首先识别用户请求是“分析视频内容、说出理解和感受”。这个阶段等于锁定任务类型(视频分析)和输出风格(主观理解 + 情感)。 2. 基础观察:对视频进行初步整体扫描 识别视频的基本信息:文件名(meme-happiness.mp4)、出现的角色(Pablo Escobar)、视频类型(meme 场景)、场景大意(孤独、等待);这是建立针对内容的“基础表征”。 3. 细节分析:对视频做更深入的视觉拆解 gemini进入 frame-by-frame 或 scene-level 的分析: - 场景环境:空旷草地、阴云、静止的镜头 - 角色动作:站立、发呆、触脸、走动 - 情绪:孤独、无聊、忧郁 这个阶段重点是“视觉细节 + 氛围感”。 4. 配乐与情绪:结合声音给出情感推断 gemini注意到背景音乐是类似 Narcos 主题曲《Tuyo》的拉丁风格,具有忧伤氛围。 情绪判断依赖声音信号被强化。 5. 语义解释:把视觉 + 情绪合成为“意义” gemini 在这里尝试做“意义构建”:视频呈现一种孤独、等待、虚无;角色反差:强权者变成孤独普通人;“等待”是 meme 的核心意象。 这是典型的 multimodal → 语义叙述。 6. 文化背景关联:将视频连接到大众文化的 Meme 语境 gemini识别出:这一段来自《Narcos》第二季,Pablo Escobar逃亡期间的孤独生活;互联网文化称之为 “Sad Pablo Escobar”; meme 的使用场景:等待、空虚、热闹之后的空落。这是“将视频解释回网络文化的语用场景”。 7. 反讽与情绪收束:根据文件名加一点 meta 层解释 gemini指出文件名“meme-happiness.mp4”与内容的悲伤形成反讽。这是主动构建幽默或观点的一种“meta-level contrast”。 8. 组织最终回答:结构化成一篇自然语言的解释文 在经过完整 pipeline 后,Gemini 输出:来源背景、场景与情绪、meme 的文化意义、整体感受与反思;
Google Gemini 2.5发布引发AI模型性价比热议· 351 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 729 条信息
#Gemini 3.0 Pro
#视频多模态
#情绪解读失败
#Sad Pablo Escobar
#反讽
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞