试了一下阶跃的智能视频通话的多模态能力,真的超强。 响应很迅速(为了观看效果有剪辑),识别效果相当准确,常见的画面内容都能识别还能进行一定的推理。 看了一下这个视频理解又快又准确的原因,可能涉及他们刚发布的 Step-3 背后多项多模态积累,这个视频通话属于多模合一能力。 今晚阶跃发布的Step3核心创新点在于,通过模型-系统协同设计,实现了极高的解码效率和成本效益。 在Hopper GPU上,Step-3的解码吞吐量高达4039 tokens/s/GPU,远超DeepSeek-V3的。 同时他们将注意力和FFN分别部署在不同GPU组,采用高效的流水线和通信机制,实现低延迟高吞吐。