西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM
Leo Xiang
23小时前
说一个最近的观点: 大厂的 asr 和 tts 可能真做不到中厂以及小厂,大厂的合规成本太高了。
wong2
1周前
看来今天OpenAI要发开源模型了
Leo Xiang
1周前
Azure 的 asr 和 tts 是提供SDK 最全的,比如基本的采集和播放都已经支持了,想问一下推友,你们在选asr和tts的供应商的时候一个好用的SDK在决策中占多大的比重?
央视网-科技日报
2周前
人工智能时代,科学教育这样开展