Gorden Sun 0 关注者 关注 8个月前 VITA-1.5:开源版视频+语音模型 效果类似ChatGPT APP的视频交互,能看能听能说,但不是原生多模态。视觉多模态LLM使用的是QWen2.5,语音延迟只有1.5秒,且支持打断。 Github: #VITA-1.5 #开源 #视频模型 #语音模型 #ChatGPT #视频交互 #视觉多模态 #QWen2.5 #语音延迟 #GitHub 前往原网页查看