Gorden Sun2025-01-06 13:59:29VITA-1.5:开源版视频+语音模型 效果类似ChatGPT APP的视频交互,能看能听能说,但不是原生多模态。视觉多模态LLM使用的是QWen2.5,语音延迟只有1.5秒,且支持打断。 Github: #VITA-1.5#开源#视频模型#语音模型#ChatGPT#视频交互#视觉多模态#QWen2.5#语音延迟#GitHub