Gorden Sun

Gorden Sun

0 关注者

6个月前

Stream-Omni:多模态聊天框架 实现的效果类似GPT-4o,支持文本、图片、语音输入,同时输出文本和语音,不是原生多模态模型,而是把视觉和语音跟文本对齐,成本更低,适合自研多模态交互时使用。 Github:

#多模态 #GPT-4o #文本 #图片 #语音 #视觉 #自研 #交互

相关新闻

placeholder

Jesse Lau 遁一子

4周前

外推突然流行这种图片 提示词放👇

placeholder

AI产业挖掘🐔

1个月前

绝无可能, 26年大概率会多模态图片,视频生成爆发,会更大程度挤压存储供给,就算有扩产,供给增速也远没有需求增速快,我会把这段评论一直留着,我们明年看

placeholder

空谷 Arvin Xu

1个月前

nano banana pro 真是逆天极了,居然会在 Thinking 过程中吐图片 🥵

placeholder

-Zho-

1个月前

在 8 个月后,Nano Banana Pro 终于也能像当初 GPT-4o 一样玩转各种可爱风格了! Nano Banana Pro = 可爱 3D emoji! 🛁🛁🛁 ZHNO|创意系列|Nano Banana Pro 【Prompt】⬇️

placeholder

Olivert

1个月前

兄弟们!Gemini 3.0 Pro 炸了! 不仅在学术、多模态、数学、代码等主流任务中保持高水准,还在视觉推理、屏幕理解、长期智能体等细分领域拉开了和其他模型的差距。 国内上不去?ZenMux直连,而且免费!Chat和api都有! 数据解读见评论区

© 2025 news.news. All rights reserved. 0.03314 秒. v1.0.46
我的评论