快手在视频上的布局越来越全面了啊,这几天开源了 Kwai Keye-VL-1.5-8B 模型 除了支持图像识别以外,视频理解能力也很强,加上 8B 的大小非常适合本地部署用来做视频标注和内容识别。 我试了一下,给了一个是描述视频画面内容以及查找分镜时间和每个分镜的内容描述都做的不错。 模型主要优势有: 短视频理解:在Video-MME的短视频子集测试中,Keye-VL-1.5-8B获得81.2的高分,超过了GPT-4o及同类模型。 视频定位能力:能够在一个26秒的短视频中,将目标物(如包)出现的时间段精确定位到0.1秒级别 视觉推理能力:能够理解视频中相对复杂的行为动机比如论文案例里面可以从两只狗的行为推测动机。 模型核心创新主要有下面几个方面: 针对视频内容动态且信息密集的特点,Keye-VL-1.5 提出了一种新颖的“Slow-Fast”视频编码策略,以有效平衡空间分辨率和时间覆盖率。 慢速通路以高分辨率处理视觉变化显著的关键帧,而快速通路则以较低分辨率但更高的时间覆盖率处理相对静态的帧。 另外模型采用了精心设计的四阶段渐进式预训练流程,系统性地将模型的上下文长度从8K扩展到128K,可以理解更加复杂的视觉信息。 在后训练阶段为解决冷启动问题,模型设计了一个五步自动化流水线来生成高质量的长链思考数据,包括数据收集、问题重写、多路径推理生成、双层质量评估和人工指导改进。 引入了“渐进式提示采样”机制来处理困难样本,即当模型多次回答错误时,在提示中给予不同层级的提示,以提高训练效率和模型推理能力
luolink
1个月前
昨天拜访了一位外贸行业的前辈,17个年头的外贸人,他现在在探索开发ai SaaS和外贸的SEO。原来当老板也能很开心~ 交流了一个下午,思维很是敏捷和跳跃,如数家珍的行业故事和个人辛酸,对于ai,建站,选品,APP开发,股票,玄学,佛学,都有一定的见解,确实很聊的来。印象最深的是,一下午的笑脸相迎,和我接触到的其他老板相比似乎气质上更加从容和优雅,原来当老板也可以很开心~ 对于我这个上门跨境求教的后辈也做了一些建议。 给我的行业建议太多:找到能让自己开心的赛道,然后走出纵深。外贸还能做几年,劝我低客单的赛道早点换,如果外贸和ai SaaS,建议我选ai...因为一天只有24小时,找圈子跟对人,一两个人就够了。然后就是找赛道找对的人完成了,不需要事事亲力亲为,要学会借力。还透露了一个我之前没观察到的事情,一般能赚钱的人能量场是稳定的,而能量场起伏很大的,大概率不容易成功。让人如沐春风的说话方式,既是天赋也是能力,自问我的沟通艺术不是很强~但是咋说的,这里面有一个共识,说话让人如沐春风的,大都混的不差。 给我的人生建议:生命只有一次,要尽可能的去体验,不念过往,不焦虑未来,活在今天~早生小孩,最好两个~最后,下次去拜财神庙的时候,要注意墙上和柱子上的字,里面有财富密码😬