Gorden Sun 0 关注者 关注 3个月前 Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github: #多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互 前往原网页查看