4天前

微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型  VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型,

相关新闻