#语音生成

5个月前

卧槽兄弟们 Soul发布的这个语音模型很强 SoulX-Podcast实现了：高真实度、长时段、多说话人、多语种（中英双语 + 多方言）播客式语音生成具备方言与副语言（如笑声、叹气等）控制能力可连续生成 90 分钟以上的对话内容而不失稳定性支持普通话、英语及多种中文方言多人多轮对话还支持在零样本（zero-shot）条件下完成声音与语气的克隆与迁移

#SoulX-Podcast #语音生成 #多语种 #高真实度 #播客

6个月前

FireRedTTS-2：小红书开源的TTS 一次性能生成3分钟长的语音，最多支持4个人物，支持多种语音，延迟较低，稳定性高。 Github：

#小红书 #TTS #语音生成 #开源 #FireRedTTS-2

7个月前

微软昨晚开源新模型：VibeVoice-1.5B TTS，可一次生成90分钟语音、多人对话效果听起来质量很高，在说话人一致性和自然轮转上都非常不错 VibeVoice能生成90分钟连续语音，支持4个不同说话人，对像播客这种长篇音频内容生成比较实用基于Qwen2.5-1.5B理解上下文和语义，有两个连续语音分词器，这两个分词器以 7.5Hz的超低帧率运行，在保证音频质量的同时，提高了计算效率，使得处理长序列成为可能模型最终输出带 AI 声明水印支持中/英文 MIT许可证 #TTS #VibeVoice

#微软 #VibeVoice-1.5B TTS #开源模型 #语音生成 #多人对话

1年前

让人物开口自然讲话教程（英文版） 1. Kokoro TTS生成音频。 2. Pixverse 上传图片创建人物角色 3. Pixverse 选角色，上传TTS音频对口型 4. Pixverse处理，画质升为4K 5. 剪映导入，添加双语智能字幕，调字体和颜色

#KokoroTTS #Pixverse #语音生成 #图像处理 #4K画质 #剪映 #字幕制作