#语音生成模型

6个月前

面壁智能推出0.5B参数语音生成基座模型VOxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发，具备高自然度、高音色相似度和强韵律表现力。 VoxCPM在权威语音合成评测中达SOTA水平，支持零样本声音克隆，可生成独特个人声音。特点： SOTA 性能：在 Seed-TTS-EVAL 等权威评测榜单上取得行业领先水平，词错误率极低。高效推理：在 RTX 4090 上 RTF≈0.17，可满足实时交互需求。超拟人语音：支持中英双语、情绪化表达、方言、符号/公式朗读。声音复刻几乎“真假难辨”。技术突破：采用“层次化语言建模 + 局部扩散生成”，端到端直接合成高质量语音，稳定性与表现力兼具。关键技术：层次化语言建模：基于MiniCPM 4.0文本基座，实现语义-声学解耦有限标量量化（FSQ）：构建"半离散"中间表示，提升生成稳定性因果式VAE编解码器：低帧率隐空间压缩，支持流式输出

#面壁智能 #语音生成模型 #VOxCPM #零样本声音克隆 #SOTA

9个月前

Fish Audio 发布最新的语音生成模型：S1 宣称达到专业配音演员的表现力与自然度 S1具备：高度自然、流畅的声音丰富的语气和情绪控制强大的指令跟随能力可通过自然语言控制一系列情绪：从（愤怒）、（高兴）、（悲伤）到细微的（强调）、（低语）、（同情）等等！其训练数据超过 200 万小时音频表现力和自然度在 TTS-Arena 中排名第一

#Fish Audio #语音生成模型 #专业配音 #自然度 #TTS-Arena