时政

财经

科技

#Whisper

karminski-牙医

2025-03-14 09:02:00

看到了个基于 Whisper.cpp 的转录工具SoftWhisper。这个项目可以将音频/视频中的音频转为文字，最大的特点是使用了 Whisper.cpp，所以兼容性非常好，所有平台都能跑。另外性能也很不错，官方宣称可以在大约 2-3 分钟内转录 2 小时的音频。作为对比，Whisper API转录 20-30 分钟的音频需要大约 40 分钟。地址：

#Whisper #SoftWhisper #音频转文字

2025-02-20 16:14:11

西北工业大学开源了一个语音理解模型：OSUM，支持8种语音理解任务，从ASR到情感识别，以及语音到文本的深度理解支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2，采用ASR+X训练策略，支持多任务同时

#西北工业大学 #OSUM #语音理解

没有更多了 🤐