西北工业大学开源了一个语音理解模型：OSUM，支持8种语音理解任务，从ASR到情感识别，以及语音到文本的深度理解支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2，采用ASR+X训练策略，支持多任务同时

#西北工业大学 #OSUM #语音理解 #开源模型 #ASR #情感识别 #Whisper #Qwen2 #多任务支持 #语音识别技术 #科技新品

Gorden Sun

4天前

Cohere开源语音识别模型Transcribe 2B参数，本地能跑，可能是目前的开源最佳，但是不确定中文识别的效果如何。模型：

Gorden Sun

1周前

PrismAudio：视频生成音效阿里开源的模型，输入视频，自动生成跟画面匹配的音效。效果还不错。项目地址：模型：

卫斯理

2周前

通过openclaw编写skill + vibe coding搞定了飞书的语音输入耗费了16W token，使用了ffmepg + whisper本地模型.....

Xiaowen

2周前

Qwen3.5 系列确实厉害。手机上能跑的 Qwen 3.5 2B 版本，已经可以流畅合理的进行很多有内容的复杂对话了，其他任何一个国外开源的 2-4b 版本，几乎完全是智障。

Baye

2周前

感觉 MacBook Neo 可能要卖爆啊，国内最低 3300 就能买到。