2025-04-17 20:09:21

AIGCLINK
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM
相关信息
2025-03-14 10:41:03
Sam的百度嘴脸就漏出来的,给你丫免费用开源模型、主机可以放到你家地下室,啥他妈国家补贴和国家控制?一个闭源模型,竟然以安全理由禁止开源模型。没竞争,再英雄,人最终都会难看。
评论 0