#文本-视觉-语音统一

9个月前

👏🏻Stream-Omni：一个类GPT-4o的文本-视觉-语音多模态大模型（1）同时支持文本、视觉、语音输入，生成文本和语音回复。（2）语音交互过程中，同步生成中间的语音识别、文本回复结果，提供更加全面的多模态交互体验！ 📝论文： 🔗代码&Demo：

#多模态大模型 #GPT-4 #文本-视觉-语音统一 #AI交互 #语音识别 #中间生成