Shaolei Zhang

Shaolei Zhang

0 关注者

8个月前

LLaVA-Mini👏is an efficient LMM for image/video understanding using one vision token, offering: (1)⏩lower latency (fast as 40ms per image), (2)🖥️less VRAM usage (support 3-hour video understanding on 2

#LLaVA-Mini #高效视觉处理 #视频理解

相关新闻

placeholder

歸藏(guizang.ai)

3周前

快手在视频上的布局越来越全面了啊,这几天开源了 Kwai Keye-VL-1.5-8B 模型 除了支持图像识别以外,视频理解能力也很强,加上 8B 的大小非常适合本地部署用来做视频标注和内容识别。 我试了一下,给了一个是描述视频画面内容以及查找分镜时间和每个分镜的内容描述都做的不错。 模型主要优势有: 短视频理解:在Video-MME的短视频子集测试中,Keye-VL-1.5-8B获得81

placeholder

勃勃OC

2年前

未来5年,谁不做AGI,不做视频理解,不做机器人 谁就被淘汰,就得死 这个世界最诡谲,最美妙的地方就是 他发展的速度是几何级数的增长的,而且不以人的意志为转移的 种田10000年,挖矿300年,造计算机100年,写代码30年 我们的下一代 被淘汰的速度, 是我们的10,100倍。 他们比我们失败的快

© 2025 news.news. All rights reserved. 0.05787 秒. v1.0.46
我的评论