#视频理解

4天前

如果你用过OpenClaw小龙虾，你会发现2025 年的 AI Agent： ✅ 能搜网页（Tavily / Brave） ✅ 能读文档 ✅ 能写代码 ❌ 不能看视频为什么？因为 Web Search 有现成的 API，但视频理解没有。 YouTube 上有 8 亿条视频——人类最大的知识库——但对所有 AI agent 来说，这是一个完全不存在的黑洞。你让 OpenClaw小龙虾搜"黄仁勋 CES 2025 发布了什么"，它只能搜到新闻文章。但真正的产品规格和价格？在 97 分钟keynote 的 PPT 画面上。你问"Sam Altman 是如何评价 AI 视频生成工具的"，答案分散在 4 个采访视频里，没有任何一篇文章做过完整对比。字幕搜索？那只覆盖了 20% 的信息。屏幕上的代码、PPT 上的图表、产品 demo 的画面——全部丢失。我们计划做：给 AI agent 用的视频理解和搜索的 API。不是字幕搜索。是多模态理解——提取视频里"展示了什么"，而不只是"说了什么"。你在 agent 里提问，直接拿到带精确时间戳的结果： 👉 你会感兴趣吗？你愿意为这个能力付费吗？

#AI Agent #OpenClaw #Web Search #视频理解 #YouTube知识库

歸藏(guizang.ai)

6个月前

快手在视频上的布局越来越全面了啊，这几天开源了 Kwai Keye-VL-1.5-8B 模型除了支持图像识别以外，视频理解能力也很强，加上 8B 的大小非常适合本地部署用来做视频标注和内容识别。我试了一下，给了一个是描述视频画面内容以及查找分镜时间和每个分镜的内容描述都做的不错。模型主要优势有：短视频理解：在Video-MME的短视频子集测试中，Keye-VL-1.5-8B获得81.2的高分，超过了GPT-4o及同类模型。视频定位能力：能够在一个26秒的短视频中，将目标物（如包）出现的时间段精确定位到0.1秒级别视觉推理能力：能够理解视频中相对复杂的行为动机比如论文案例里面可以从两只狗的行为推测动机。模型核心创新主要有下面几个方面：针对视频内容动态且信息密集的特点，Keye-VL-1.5 提出了一种新颖的“Slow-Fast”视频编码策略，以有效平衡空间分辨率和时间覆盖率。慢速通路以高分辨率处理视觉变化显著的关键帧，而快速通路则以较低分辨率但更高的时间覆盖率处理相对静态的帧。另外模型采用了精心设计的四阶段渐进式预训练流程，系统性地将模型的上下文长度从8K扩展到128K，可以理解更加复杂的视觉信息。在后训练阶段为解决冷启动问题，模型设计了一个五步自动化流水线来生成高质量的长链思考数据，包括数据收集、问题重写、多路径推理生成、双层质量评估和人工指导改进。引入了“渐进式提示采样”机制来处理困难样本，即当模型多次回答错误时，在提示中给予不同层级的提示，以提高训练效率和模型推理能力

#快手 #Kwai Keye-VL-1.5-8B模型 #视频理解 #开源 #人工智能

1年前

LLaVA-Mini👏is an efficient LMM for image/video understanding using one vision token, offering: (1)⏩lower latency (fast as 40ms per image), (2)🖥️less VRAM usage (support 3-hour video understanding on 24GB GPU). Paper: Code & Demo:

#LLaVA-Mini #高效视觉处理 #视频理解

2年前

未来5年，谁不做AGI，不做视频理解，不做机器人谁就被淘汰，就得死这个世界最诡谲，最美妙的地方就是他发展的速度是几何级数的增长的，而且不以人的意志为转移的种田10000年，挖矿300年，造计算机100年，写代码30年我们的下一代被淘汰的速度，是我们的10，100倍。他们比我们失败的快

#AGI #人工智能 #视频理解 #机器人 #未来发展 #科技创新