我去这个语音克隆模型有点牛P 哈哈哈使用了 250,000 小时的中英双语语音数据训练只需15秒的声音就能完美克隆声音，保持音色和情感 Llasa-3B 可以通过输入一个带有情感特征的语音提示（Prompt），在生成目标语音时保留提示语音中的情感特征。基于 LLaMA 语言模型（ 1B、3B 和 8B 参数规模），通过整合 XCodec2 的语音 token 提供语音生成功能。

#语音克隆 #Llasa-3B #情感特征 #语言模型 #语音合成

相关新闻

Bryan

2天前

Codex 能力一流，但是看它说的话太难受了 🙏来个插件，内部保持它那套不动，但最终结果给我看的时候用 Claude 润色下吧

Limbo

1周前

你们的codex 是不是也是一样，小骚话满天飞 🤣

郭宇 guoyu.eth

1周前

在小红书上看了一个为什么闪光灯可以让铁盆发出声音的科普视频，脑子里突然闪过一个非常有意思的新想法，我们身处的环境与能量，都可以通过语言模型来进行转换，换句话说，世界上一切能量的交换都可以是信息的交换。只是我们（人类）需要一种方式能更直观的看到它！

郭宇 guoyu.eth

3周前

今天正式上线了第 9 个 vibe 项目，这个开源项目既是我在 codeben, chatben 当中的 sandbox 实践的抽象，也是接下来要发布的云端“1人公司”产品的核心组件，在 agent matrix 时代，云端沙箱成为了无比重要的基础设施，因为代码不再由预定义的程序执行，而是由语言模型现写现用，有史以来，软件不再是写死的服务，而是流动的 token。每个云端沙箱的 API

Larry & Leo Bro - Eagle of Full Stack

4个月前

为什么 GPT 这么喜欢说 “捶死”？这都是哪儿学的中文？