时政
财经
科技
虚拟货币
其他
登录
#零样本声音克隆
关注
sitin
1周前
面壁智能推出0.5B参数语音生成基座模型VOxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发,具备高自然度、高音色相似度和强韵律表现力。 VoxCPM在权威语音合成评测中达SOTA水平,支持零样本声音克隆,可生成独特个人声音。 特点: SOTA 性能:在 Seed-TTS-EVAL 等权威评测榜单上取得行业领先水平,词错误率极低。 高效推理:在 RTX 4090 上 RTF≈0.17,可满足实时交互需求。 超拟人语音:支持中英双语、情绪化表达、方言、符号/公式朗读。声音复刻几乎“真假难辨”。 技术突破:采用“层次化语言建模 + 局部扩散生成”,端到端直接合成高质量语音,稳定性与表现力兼具。 关键技术: 层次化语言建模:基于MiniCPM 4.0文本基座,实现语义-声学解耦 有限标量量化(FSQ):构建"半离散"中间表示,提升生成稳定性 因果式VAE编解码器:低帧率隐空间压缩,支持流式输出
#面壁智能
#语音生成模型
#VOxCPM
#零样本声音克隆
#SOTA
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞