Shaolei Zhang

Shaolei Zhang

0 关注者

1个月前

👏🏻Stream-Omni:一个类GPT-4o的文本-视觉-语音多模态大模型 (1)同时支持文本、视觉、语音输入,生成文本和语音回复。 (2)语音交互过程中,同步生成中间的语音识别、文本回复结果,提供更加全面的多模态交互体验! 📝论文: 🔗代码&Demo:

#多模态大模型 #GPT-4 #文本-视觉-语音统一 #AI交互 #语音识别 #中间生成

相关新闻

placeholder

Michael Anti

1周前

我没懂OpenAI的产品线逻辑,所以现在GPT5和o3、o4哪个更好?

placeholder

迈克 Mike Chong

1周前

Sam Altman: GPT 3: 高中生 GPT 4: 大学生 GPT 5: 专家

placeholder

dontbesilent

4周前

微信这个语音识别的按钮救了我的命 应该是把微信输入法的语音识别集成过来了 iOS 系统听写太难用了,又不像安卓可以随意使用第三方输入法听写 现在移动端输出效率大幅提升

placeholder

ding.one

1个月前

很多人都慢慢发现用语音代替打字的快捷了,不管是 vibe coding 还是和 AI 对话效率都爆棚,未来的操作系统肯定会把鼠标和键盘更加边缘化的。但目前这个赛道太卷了,我已经尝试过这么多了: Superwhisper: Willow Voice: Aqua Voice: Macwhisper: WisprFlow: Harker: VoiceInk: Spokenly: Voic

placeholder

sitin

2个月前

OpenAI高级语音功能大升级!对话像真人般自然流畅,语调有起伏、节奏更真实,还自带情绪表达,从同理心到讽刺全都拿捏。 语音翻译更是厉害,多轮对话无需重复指令,旅行、商务、学习全搞定。

© 2025 news.news. All rights reserved. 0.08509 秒. v1.0.42
我的评论