👏🏻Stream-Omni：一个类GPT-4o的文本-视觉-语音多模态大模型（1）同时支持文本、视觉、语音输入，生成文本和语音回复。（2）语音交互过程中，同步生成中间的语音识别、文本回复结果，提供更加全面的多模态交互体验！ 📝论文： 🔗代码&Demo：

#多模态大模型 #GPT-4 #文本-视觉-语音统一 #AI交互 #语音识别 #中间生成

AB Kuai.Dong

2天前

字节给苹果笔记本 MacOS，开放内测的豆包输入法，太厉害了。安装后，只需要在输入栏，双击 Option 键，就能呼出语音识别。需要补充的是，这条推文也是我用嘴说出来的。等同于，我可以带着电脑，线下去录制语音转文字。推上有不少人贴了获取方式。

Gorden Sun

4天前

Cohere开源语音识别模型Transcribe 2B参数，本地能跑，可能是目前的开源最佳，但是不确定中文识别的效果如何。模型：

Vincent Yang

5天前

Koe v1.0.7 发布了！这个版本加入了实时语音识别文字预览，说话的时候可以直接在屏幕底部看到识别内容。同时新增了设置引导，对于普通用户不用再手动编辑 YAML 配置文件了。

Michael Anti

6天前

今天我依然很凶地对Claude Code说，“你瞎扯淡……” 后来突然一想，这AI都会记住吧，以后这些都是AI起诉我虐待的呈堂证供啊。

seekinganythingbutalpha

1周前

我不太明白为什么字节的语音识别(STT)可以做到价格最低，但是文字转语音(TTS)却是大厂中价格最高的。难道是因为方言采风和合成的前期成本比较高？图中价格均为今日询价计算得出，不保证时效性和正确性。阿里价格仅为参考，不太适合一般开发者使用。