ElevenLabs v3语音模型，AI语音的言出法随时刻

#elevenlabs #v3语音模型 #AI语音 #语音合成 #技术进展

相关新闻

小互

3天前

Google 发布 Gemini 3.1 Flash Live 全新语音模型更快响应更自然对话记忆翻倍支持 90 多种语言，200 多个国家和地区 Gemini 3.1 Flash Live是基于 Gemini 3 Pro 单独训练的独立模型，专门优化了延迟、语调感知和复杂任务执行四大核心升级 ① 响应更快，对话不再有"尴尬停顿" 以前跟 AI 语音对话，说完一句话要等一两秒

sitin

4个月前

Gemini3.0 开干！明天再看！

宝玉

4个月前

现在微信读书的AI语音已经挺不错了，听得很自然，不过一些细节还是有待完善，比如“了心”是个人名，第一次读“le”，第二次读对了是“liao”

小互

5个月前

🎙️ MiniMax Speech 2.6 发布 ⚡ 延迟 <250ms 🧠 智能文本处理：自动识别网址、日期、数字 🎤 真人级语音：支持克隆音色与情感表达 🌍 40+ 语言，流畅混读但是从演示视频来看，似乎拟人和情感方面没有展示出来，这个演示视频做的太差了。之前Speech 2.5 在中文情感能力方面很不错... 一次失败的演示...

sitin

5个月前

Decart 和 ElevenLabs 联合退出唇形同步 API 让 AI 角色说话时嘴型完全同步、语气自然、有情感低延迟 + 真唇形：ElevenLabs 负责流式输出情感语音，Decart 的 Lipsync 服务实时把每个音素映射成嘴部动画帧，边说边对齐，不再“对不上嘴”。能被“礼貌地打断”：用户一开口，VAD（语音活动检测）触发中断信号，角色会自然停下，再接着对话，不会“自顾自说完

关联事件

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议

869

在新德里举行的活动中，OpenAI宣布即将推出o3-Pro模型，取代现有的o1-Pro模型，旨在提升ChatGPT的推理能力和功能。同时，OpenAI还发布了ChatGPT高级语音模式的升级，新增了自然停顿、重音处理、同理心表达和双向自动翻译等功能。这一更新已向所有付费用户开放，预计将进一步增强ChatGPT的用户体验和市场竞争力。随着用户基数的不断扩大，OpenAI的这些新功能引发了广泛关注，尤其是在人工智能语音交互领域的应用潜力。