VITA-1.5下的内容 - news.news

暂无通知

#VITA-1.5

Gorden Sun

4周前

VITA-1.5：开源版视频+语音模型效果类似ChatGPT APP的视频交互，能看能听能说，但不是原生多模态。视觉多模态LLM使用的是QWen2.5，语音延迟只有1.5秒，且支持打断。 Github：

VITA-1.5：开源版视频+语音模型效果类似ChatGPT APP的视频交互，能看能听能说，但不是原生多模态。视觉多模态LLM使用的是QWen2.5，语音延迟只有1.5秒，且支持打断。 Github：

#VITA-1.5 #开源 #视频模型