#零样本声音克隆

6个月前

面壁智能推出0.5B参数语音生成基座模型VOxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发，具备高自然度、高音色相似度和强韵律表现力。 VoxCPM在权威语音合成评测中达SOTA水平，支持零样本声音克隆，可生成独特个人声音。特点： SOTA 性能：在 Seed-TTS-EVAL 等权威评测榜单上取得行业领先水平，词错误率极低。高效推理：在 RTX 4090 上 RTF≈0.17，可满足实时交互需求。超拟人语音：支持中英双语、情绪化表达、方言、符号/公式朗读。声音复刻几乎“真假难辨”。技术突破：采用“层次化语言建模 + 局部扩散生成”，端到端直接合成高质量语音，稳定性与表现力兼具。关键技术：层次化语言建模：基于MiniCPM 4.0文本基座，实现语义-声学解耦有限标量量化（FSQ）：构建"半离散"中间表示，提升生成稳定性因果式VAE编解码器：低帧率隐空间压缩，支持流式输出

#面壁智能 #语音生成模型 #VOxCPM #零样本声音克隆 #SOTA