Gorden Sun

Gorden Sun

0 关注者

3个月前

Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:

#多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互

相关新闻

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

3天前

LLM从来不是通用智能,而是语言智能,或者说是基于语言的认知智能; 语言在人类智能中是什么,LLM在人工智能中就是什么。 而获取这种智能的方式就是交互。 𝕀²·ℙarad𝕚g𝕞的具身经验本体交互范式就是这种交互的agentic cognition OS。

placeholder

李幺傻

4天前

前年,我在微博上发了这一张图片,竟然有很多人问:“这是真的吗?”如果这是真的,那么萨达姆就是我孙子。

placeholder

dontbesilent

5天前

用大模型的多模态,向“普通人”展示:AI 竟然还能这么用 ⬆️ 这句话可以让我抖音涨粉 50w~100w 之后每用这个方法做一条视频,我就转一下这条推文 #flag

placeholder

卫斯理

5天前

多年前看的一个图,终于找到了....

placeholder

Tw93

6天前

哈哈哈哈哈 这张图好有趣

© 2025 news.news. All rights reserved. 0.07603 秒. v1.0.46
我的评论