时政
财经
科技
虚拟货币
其他
登录
#语音生成模型
关注
sitin
1周前
面壁智能推出0.5B参数语音生成基座模型VOxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发,具备高自然度、高音色相似度和强韵律表现力。 VoxCPM在权威语音合成评测中达SOTA水平,支持零样本声音克隆,可生成独特个人声音。 特点: SOTA 性能:在 Seed-TTS-EVAL 等权威评测榜单上取得行业领先水平,词错误率极低。 高效推理:在 RTX 4090 上 RTF≈0.17,可满足实时交互需求。 超拟人语音:支持中英双语、情绪化表达、方言、符号/公式朗读。声音复刻几乎“真假难辨”。 技术突破:采用“层次化语言建模 + 局部扩散生成”,端到端直接合成高质量语音,稳定性与表现力兼具。 关键技术: 层次化语言建模:基于MiniCPM 4.0文本基座,实现语义-声学解耦 有限标量量化(FSQ):构建"半离散"中间表示,提升生成稳定性 因果式VAE编解码器:低帧率隐空间压缩,支持流式输出
#面壁智能
#语音生成模型
#VOxCPM
#零样本声音克隆
#SOTA
分享
评论 0
0
小互
3个月前
Fish Audio 发布最新的语音生成模型:S1 宣称达到专业配音演员的表现力与自然度 S1具备: 高度自然、流畅的声音 丰富的语气和情绪控制 强大的指令跟随能力 可通过自然语言控制一系列情绪:从(愤怒)、(高兴)、(悲伤)到细微的(强调)、(低语)、(同情)等等! 其训练数据超过 200 万小时音频 表现力和自然度在 TTS-Arena 中排名第一
#Fish Audio
#语音生成模型
#专业配音
#自然度
#TTS-Arena
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞