李沐的语音LLM,在文本大模型基础上加入语音输入输出,开源训练方法与权重。需要10-12 GB VRAM 没有这种模型之前,AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成,响应容易慢。而且大段文本不一定适合念出来,念出来也不一定符合“情感”
李沐的语音LLM,在文本大模型基础上加入语音输入输出,开源训练方法与权重。需要10-12 GB VRAM 没有这种模型之前,AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成,响应容易慢。而且大段文本不一定适合念出来,念出来也不一定符合“情感”
Luo说不啰嗦
8小时前
质疑开源,理解开源,成为开源。
Mr Panda
8小时前
卧槽,李沐团队开源的的这个音频大模型简直了 我看完这个视频,第一反应就是电影配音这个行业要被颠覆了。
Jintao Zhang 张晋涛
11小时前
字节把扣子开源了,虽然也不算是个多大的事儿,不过我比较好奇接下来他们要怎么讲故事了 🤣
𝘁𝗮𝗿𝗲𝘀𝗸𝘆
18小时前
大厂动不动玩开源,小厂/个人独立开发者玩不过只能低调求生存了?🤣😂