时政

财经

科技

#语音模型

2025-03-01 17:39:18

兄弟们，这个全新的语音模型很厉害已经无法分辨了 Sesame： “跨越语音“恐怖谷” ，像真人说话一样的语音模型当人工合成的语音接近真实人声但仍然存在微小差异时，人类会感到奇怪或不适，这就是所谓的“恐怖谷效应”。 Sesame 公司展示了其最新的语音合成模型CSM，它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。

#语音模型 #恐怖谷效应 #语音合成

2025-01-06 13:59:29

VITA-1.5：开源版视频+语音模型效果类似ChatGPT APP的视频交互，能看能听能说，但不是原生多模态。视觉多模态LLM使用的是QWen2.5，语音延迟只有1.5秒，且支持打断。 Github：
#VITA-1.5 #开源 #视频模型

没有更多了 🤐