karminski-牙医 0 关注者 关注 4天前 微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型 VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型, #微软 #VibeVoice-1.5B #TTS #语音合成-差评 #L4 GPU推理 前往原网页查看