时政
财经
科技
虚拟货币
其他
登录
#中文语音生成
关注
nicekate
3周前
OpenBMB 推出 VoxCPM-0.5B,试了下,中文语音生成 还不错,读数字也准确,他们给出的性能图里有多个不同语音模型的表现,推荐看下 注: Seed-TTS-eval 用哪些指标? - WER(Word Error Rate,↓越低越好):把合成语音用 ASR 转回文本,与目标文本比对得到词错率;英文用 Whisper-large-v3,中文用 Paraformer-zh 做 ASR。 - SIM(Speaker Similarity,↑越高越好):用 WavLM-large(说话人验证微调版) 提取说话人嵌入,计算合成语音与参考语音的余弦相似度。 CV3-eval 用哪些指标? - 内容一致性:CER/WER(↓) 依据语种选 CER(中文常用)或 WER(英文常用);ASR 引擎为 Whisper-large-v3(英) 和 Paraformer(中)。 - 说话人相似度:SIM(↑) 用 ERes2Net 说话人验证模型提取嵌入,计算与参考语音的余弦相似度。 - 音频质量:DNSMOS(↑) 用 DNSMOS 网络打分,无参考评估与人听感高度相关。 此外,CV3-eval 还包含情感克隆子集(用情感分类器做情感准确率)以及若干主观 MOS 测试集,但核心客观三项是 CER/WER、SIM、DNSMOS。 小结: WER/CER:越低越清晰、越“读对字”。 SIM:越高越像参考说话人。 DNSMOS:越高越干净、音质越好(常见范围约 1–5 分)。
#OpenBMB
#VoxCPM-0.5B
#中文语音生成
#语音模型性能
#语音评估指标
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞