#中文语音生成

6个月前

OpenBMB 推出 VoxCPM-0.5B，试了下，中文语音生成还不错，读数字也准确，他们给出的性能图里有多个不同语音模型的表现，推荐看下注： Seed-TTS-eval 用哪些指标？ - WER（Word Error Rate，↓越低越好）：把合成语音用 ASR 转回文本，与目标文本比对得到词错率；英文用 Whisper-large-v3，中文用 Paraformer-zh 做 ASR。 - SIM（Speaker Similarity，↑越高越好）：用 WavLM-large（说话人验证微调版）提取说话人嵌入，计算合成语音与参考语音的余弦相似度。 CV3-eval 用哪些指标？ - 内容一致性：CER/WER（↓）依据语种选 CER（中文常用）或 WER（英文常用）；ASR 引擎为 Whisper-large-v3（英）和 Paraformer（中）。 - 说话人相似度：SIM（↑）用 ERes2Net 说话人验证模型提取嵌入，计算与参考语音的余弦相似度。 - 音频质量：DNSMOS（↑）用 DNSMOS 网络打分，无参考评估与人听感高度相关。此外，CV3-eval 还包含情感克隆子集（用情感分类器做情感准确率）以及若干主观 MOS 测试集，但核心客观三项是 CER/WER、SIM、DNSMOS。小结： WER/CER：越低越清晰、越“读对字”。 SIM：越高越像参考说话人。 DNSMOS：越高越干净、音质越好（常见范围约 1–5 分）。

#OpenBMB #VoxCPM-0.5B #中文语音生成 #语音模型性能 #语音评估指标