#语音合成-差评

karminski-牙医

5个月前

微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型 VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型，生成的语音还自带乱七八糟的BGM. 完全达不到宣传的效果. 我的建议是别用啊, 纯纯浪费生命. 另外，官方space的代码是使用CPU推理的，可以修改为GPU推理，照着我这个改就行了，我用了一个24G显存的NVIDIA L4，实测大概使用10G左右显存。生成速度基本是一秒一个字. 开 flash_attention 会快很多. 模型地址:

#微软 #VibeVoice-1.5B #TTS #语音合成-差评 #L4 GPU推理