beltout：能改变音色的语音模型这个模型很有意思，不是克隆人声的音色，而是改变人声的音色。6G的3060显卡就能跑，但这是基模，要达到可控的效果，还需要继续训练。模型：

#语音模型 #音色改变 #6G显卡 #可控训练 #技术原型

相关新闻

Tom Huang

9个月前

这个也疯狂了🤯 通过一段提示词就可以激活下面这样的虚拟世界并可以自由的探索⚡️ 想象一下还可以添加其他角色，可以通过 LLMs + 语音模型的方式进行虚拟世界里真实的交谈直接构建一整个实时互动的虚拟世界提示词地址 👉

小互

1年前

兄弟们，这个全新的语音模型很厉害已经无法分辨了 Sesame： “跨越语音“恐怖谷” ，像真人说话一样的语音模型当人工合成的语音接近真实人声但仍然存在微小差异时，人类会感到奇怪或不适，这就是所谓的“恐怖谷效应”。 Sesame 公司展示了其最新的语音合成模型CSM，它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。

Gorden Sun

1年前

VITA-1.5：开源版视频+语音模型效果类似ChatGPT APP的视频交互，能看能听能说，但不是原生多模态。视觉多模态LLM使用的是QWen2.5，语音延迟只有1.5秒，且支持打断。 Github：

beltout：能改变音色的语音模型 这个模型很有意思，不是克隆人声的音色，而是改变人声的音色。6G的3060显卡就能跑，但这是基模，要达到可控的效果，还需要继续训练。 模型：

相关新闻

beltout：能改变音色的语音模型这个模型很有意思，不是克隆人声的音色，而是改变人声的音色。6G的3060显卡就能跑，但这是基模，要达到可控的效果，还需要继续训练。模型：