兄弟们，这个全新的语音模型很厉害已经无法分辨了 Sesame： “跨越语音“恐怖谷” ，像真人说话一样的语音模型当人工合成的语音接近真实人声但仍然存在微小差异时，人类会感到奇怪或不适，这就是所谓的“恐怖谷效应”。 Sesame 公司展示了其最新的语音合成模型CSM，它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。

#语音模型 #恐怖谷效应 #语音合成 #Sesame公司 #CSM

相关新闻

Jixian Wang

3个月前

我也很想吐槽一句：抖音上开美颜还不过瘾这拉腿特效看得我浑身难受，人类的头身比例腿和躯干这都是有比例的不是拉腿就拉出来的，看得都恐怖谷效应了。

小互

4个月前

🎙️ MiniMax Speech 2.6 发布 ⚡ 延迟 <250ms 🧠 智能文本处理：自动识别网址、日期、数字 🎤 真人级语音：支持克隆音色与情感表达 🌍 40+ 语言，流畅混读但是从演示视频来看，似乎拟人和情感方面没有展示出来，这个演示视频做的太差了。之前Speech 2.5 在中文情感能力方面很不错... 一次失败的演示...

AIGCLINK

5个月前

阿里的最新TTS：Qwen3-TTS，跨语言混合能力强，感觉基本无缝切换，比Qwen-TTS多了更多的语言和方言支持同样能根据输入文本自动调整韵律、节奏和情绪变化跨语言的音色一致性也比较好中文支持普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语多语言支持英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语做有声书、AI客服、短视频配音的可以看看 #TTS #

sitin

5个月前

IndexTTS2 是 Bilibili 提出的一款新一代零样本语音合成（TTS）模型，其核心目标是实现高精度时长控制与高度自然的情绪表达，同时保持音色一致性，适用于视频配音、内容创作和多模态合成等场景。核心突破与功能亮点 1.精准时长控制：可直接指定语音时长（精确到毫秒），确保与视频口型严格对齐。支持不设限的“自然时长”模式，适应不同场景。 2.音色与情感完全分离（核心创新）：通过对抗训练

Gorden Sun

6个月前

B站的IndexTTS2开源了，有没有已经部署的，看看效果是不是像Demo那样牛逼？ Github：模型：