Gorden Sun

Gorden Sun

0 关注者

4个月前

Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:

#多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互

相关新闻

placeholder

初码

1天前

为什么丝袜仅在视觉上就能带来性愉悦,这个是什么原理?第一个发明丝袜的人是怎么想的??

placeholder

空空 🌟 狞猫世界第一可爱!

2天前

在PS的导出文件夹里发现一张图,不记得有没有发过了,总之再发一遍。你要学习宇智波的智慧!

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

5天前

理解LLM,得综合AI工程(iwl)、交互(icl)和语言哲学(符号)一起才能厘清点眉目

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

6天前

这能看出来哪根手指是多出来的吗

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1周前

这张图很清楚了,真龙🐲都不愿现身!?

© 2025 news.news. All rights reserved. 0.19332 秒. v1.0.46
我的评论