时政
财经
科技
虚拟货币
其他
登录
#VibeVoice-Large
关注
nicekate
21小时前
微软新出的 VibeVoice-Large(7B)声音克隆效果是真不错,非常大的亮点是生成的语音时长最长 45 分钟,如果是 VibeVoice-1.5B,最长 90 分钟,但我对比了下,1.5 B 生成效果还是要差些 之前用过的一些开源克隆模型最大问题是超过30秒就变样,今天用 VibeVoice-Large 感觉真不错 下面的视频是我的声音克隆效果(和我本人声音很像),Mac 上 ComfyUI 运行 VibeVoice-Large,运行了 24分钟,生成了 1分19秒的音频 VibeVoice-1.5B ,17秒视频生成花了 5分钟 VibeVoice-Large,17秒视频生成花了 12分钟 如果用英伟达的 Win电脑,应该会快很多 显存建议: 1.5B 约需 8 GB VRAM 7B/Large 类约 16 GB VRAM 我使用的仓库见🧵
#微软
#VibeVoice-Large
#声音克隆
#comfyUI
#英伟达
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞