VITA-1.5:开源版视频+语音模型 效果类似ChatGPT APP的视频交互,能看能听能说,但不是原生多模态。视觉多模态LLM使用的是QWen2.5,语音延迟只有1.5秒,且支持打断。 Github:
VITA-1.5:开源版视频+语音模型 效果类似ChatGPT APP的视频交互,能看能听能说,但不是原生多模态。视觉多模态LLM使用的是QWen2.5,语音延迟只有1.5秒,且支持打断。 Github:
Mr Panda
14小时前
有人用豆包练口语吗,试了一下感觉比chatgpt 效果好
Jesse Lau 遁一子
18小时前
我的codex恢复可以用了。 感觉chatGPT的codex和web的智商对比就像周瑜和蒋干的差别😙