#文本

9个月前

Stream-Omni：多模态聊天框架实现的效果类似GPT-4o，支持文本、图片、语音输入，同时输出文本和语音，不是原生多模态模型，而是把视觉和语音跟文本对齐，成本更低，适合自研多模态交互时使用。 Github：

#多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互