Shaolei Zhang 0 关注者 关注 3个月前 👏🏻Stream-Omni:一个类GPT-4o的文本-视觉-语音多模态大模型 (1)同时支持文本、视觉、语音输入,生成文本和语音回复。 (2)语音交互过程中,同步生成中间的语音识别、文本回复结果,提供更加全面的多模态交互体验! 📝论文: 🔗代码&Demo: #多模态大模型 #GPT-4 #文本-视觉-语音统一 #AI交互 #语音识别 #中间生成 前往原网页查看