月之暗面更新了 K2 模型的 0905 版本,我试了一下,这次 Coding 能力提升挺大。 尤其 3D 房屋展示那个案例比我前几天用 Claude 4.1 写的时候轻松好多。 从公告来看这次升级将上下文提升到了 256K,在编码 Agent 下 Coding 能力也有所提升,前端代码美观度有所提升。 我拿之前测试 GPT-5 那个巨长要求巨多的提示词试了一下效果相当不错,质量跟当时对比测评中最好的 GPT-5 有一拼。 而且这个涉及多个页面加上超长提示词也没啥问题,后来还做了一次修改,而且跟当时最好的 GPT-5 一样也加上了地址每个字段的验证,非常细致。 然后我试了一下当时 0711 那个版本没搞定的东西,当时一旦我想让他写 React 应用他就会陷入循环,而且最后没有成功,我的提示词当时比较简单,二是 React 环境构建就麻烦。 这次我让他用 React 和 R3F 框架帮我展示上次用 Nano Banana 做的 3D 模型,没想到只修改了一次就成功了,实现的非常完美,该加的材质都加上了,而且点击出现渲染图也行,坐标对齐很好,这个可比0711 我测试那个项目难多了。 作为对比我前几天演示的时候用的 Cursor 的 Claude 4.1 写的,而且写之前还跟 GPT-5 讨论了非常细的提示词,我调试了好多次才搞定,最后还是有小 Bug。 最重要的定价跟之前相同,K2 的高速版API也已经自动升级到了 0905 版本,输出速度也快了非常多,达到60-100 Token/s。 感兴趣可以改一下 Cluade Code 的 API 去试试。
快手在视频上的布局越来越全面了啊,这几天开源了 Kwai Keye-VL-1.5-8B 模型 除了支持图像识别以外,视频理解能力也很强,加上 8B 的大小非常适合本地部署用来做视频标注和内容识别。 我试了一下,给了一个是描述视频画面内容以及查找分镜时间和每个分镜的内容描述都做的不错。 模型主要优势有: 短视频理解:在Video-MME的短视频子集测试中,Keye-VL-1.5-8B获得81.2的高分,超过了GPT-4o及同类模型。 视频定位能力:能够在一个26秒的短视频中,将目标物(如包)出现的时间段精确定位到0.1秒级别 视觉推理能力:能够理解视频中相对复杂的行为动机比如论文案例里面可以从两只狗的行为推测动机。 模型核心创新主要有下面几个方面: 针对视频内容动态且信息密集的特点,Keye-VL-1.5 提出了一种新颖的“Slow-Fast”视频编码策略,以有效平衡空间分辨率和时间覆盖率。 慢速通路以高分辨率处理视觉变化显著的关键帧,而快速通路则以较低分辨率但更高的时间覆盖率处理相对静态的帧。 另外模型采用了精心设计的四阶段渐进式预训练流程,系统性地将模型的上下文长度从8K扩展到128K,可以理解更加复杂的视觉信息。 在后训练阶段为解决冷启动问题,模型设计了一个五步自动化流水线来生成高质量的长链思考数据,包括数据收集、问题重写、多路径推理生成、双层质量评估和人工指导改进。 引入了“渐进式提示采样”机制来处理困难样本,即当模型多次回答错误时,在提示中给予不同层级的提示,以提高训练效率和模型推理能力