#AI语音

3天前

Google 发布 Gemini 3.1 Flash Live 全新语音模型更快响应更自然对话记忆翻倍支持 90 多种语言，200 多个国家和地区 Gemini 3.1 Flash Live是基于 Gemini 3 Pro 单独训练的独立模型，专门优化了延迟、语调感知和复杂任务执行四大核心升级 ① 响应更快，对话不再有"尴尬停顿" 以前跟 AI 语音对话，说完一句话要等一两秒它才回，节奏很割裂。 3.1 Flash Live 把延迟大幅压低了。在 Artificial Analysis 的测试中，最低思考级别下响应时间仅 0.96 秒。 ② 能听懂你的语气，不再千篇一律这是最值得关注的升级，3.1 Flash Live 比上一代 2.5 Flash Native Audio 更准确地识别音调、语速变化，能判断你是着急、困惑还是好奇，然后调整自己回复的长度和语气。 ③ 对话记忆翻倍：长聊不失忆上下文窗口 128K token，上下文跟踪长度是前代的 2 倍。 ④ 嘈杂环境下的指令理解更好在 Scale AI 的 Audio MultiChallenge 测试中得分 36.1%（开启思考模式），这个测试专门模拟真实语音中的打断、犹豫、背景噪音等干扰。

#Google #Gemini 3.1 #AI语音 #全新语音模型 #自然对话 #复杂任务执行 #多语言支持 #延迟优化

4个月前

现在微信读书的AI语音已经挺不错了，听得很自然，不过一些细节还是有待完善，比如“了心”是个人名，第一次读“le”，第二次读对了是“liao”

#微信读书 #AI语音 #用户体验 #细节待完善 #人名误读

独立开发者｜欧维Ove

5个月前

AI语音生成的赛道跑出来了很多成功的独立开发产品啊

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#AI语音 #独立开发 #产品成功

5个月前

11labs 已经有这么丰富的产品组合了，国内最接近11labs的公司是哪家？

#11Labs #AI语音 #产品组合 #国内公司 #技术对比

8个月前

李沐的语音LLM，在文本大模型基础上加入语音输入输出，开源训练方法与权重。需要10-12 GB VRAM 没有这种模型之前，AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成，响应容易慢。而且大段文本不一定适合念出来，念出来也不一定符合“情感”

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#李沐 #语音LLM #开源 #AI语音 #AI客服

8个月前

AI实时语音专家 leeo xiang 老师，开源新项目BlastOff，用小模型先回复，然后大模型续上，实现了毫秒级即时响应，LLM 首句延迟可以大幅降低到100ms级别。 Github：当< 200ms响应，就能感觉像真人对话。在设备端实现高速响应，降低云端延迟！在AI语音应用搞起来！

#AI语音 #实时语音 #LLM #低延迟 #BlastOff

8个月前

ElevenLabs v3语音模型，AI语音的言出法随时刻

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#elevenlabs #v3语音模型 #AI语音 #语音合成 #技术进展