Shaolei Zhang

Shaolei Zhang

0 关注者

9个月前

👏🏻Stream-Omni:一个类GPT-4o的文本-视觉-语音多模态大模型 (1)同时支持文本、视觉、语音输入,生成文本和语音回复。 (2)语音交互过程中,同步生成中间的语音识别、文本回复结果,提供更加全面的多模态交互体验! 📝论文: 🔗代码&Demo:

#多模态大模型 #GPT-4 #文本-视觉-语音统一 #AI交互 #语音识别 #中间生成

相关新闻

placeholder

AB Kuai.Dong

2天前

字节给苹果笔记本 MacOS,开放内测的豆包输入法,太厉害了。安装后,只需要在输入栏,双击 Option 键,就能呼出语音识别。 需要补充的是,这条推文也是我用嘴说出来的。 等同于,我可以带着电脑,线下去录制语音转文字。 推上有不少人贴了获取方式。

placeholder

Gorden Sun

4天前

Cohere开源语音识别模型Transcribe 2B参数,本地能跑,可能是目前的开源最佳,但是不确定中文识别的效果如何。 模型:

placeholder

Vincent Yang

5天前

Koe v1.0.7 发布了!这个版本加入了实时语音识别文字预览,说话的时候可以直接在屏幕底部看到识别内容。同时新增了设置引导,对于普通用户不用再手动编辑 YAML 配置文件了。

placeholder

Michael Anti

6天前

今天我依然很凶地对Claude Code说,“你瞎扯淡……” 后来突然一想,这AI都会记住吧,以后这些都是AI起诉我虐待的呈堂证供啊。

placeholder

seekinganythingbutalpha

1周前

我不太明白为什么字节的语音识别(STT)可以做到价格最低,但是文字转语音(TTS)却是大厂中价格最高的。 难道是因为方言采风和合成的前期成本比较高? 图中价格均为今日询价计算得出,不保证时效性和正确性。 阿里价格仅为参考,不太适合一般开发者使用。

© 2025 news.news. All rights reserved. 0.03146 秒. v1.0.46
我的评论