#语音理解

1年前

西北工业大学开源了一个语音理解模型：OSUM，支持8种语音理解任务，从ASR到情感识别，以及语音到文本的深度理解支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2，采用ASR+X训练策略，支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM

#西北工业大学 #OSUM #语音理解 #开源模型 #ASR #情感识别 #Whisper #Qwen2 #多任务支持 #语音识别技术 #科技新品