时政
财经
科技
虚拟货币
其他
登录
#AI语音
关注
小互
3天前
Google 发布 Gemini 3.1 Flash Live 全新语音模型 更快响应 更自然对话 记忆翻倍 支持 90 多种语言,200 多个国家和地区 Gemini 3.1 Flash Live是基于 Gemini 3 Pro 单独训练的独立模型,专门优化了延迟、语调感知和复杂任务执行 四大核心升级 ① 响应更快,对话不再有"尴尬停顿" 以前跟 AI 语音对话,说完一句话要等一两秒它才回,节奏很割裂。 3.1 Flash Live 把延迟大幅压低了。在 Artificial Analysis 的测试中,最低思考级别下响应时间仅 0.96 秒。 ② 能听懂你的语气,不再千篇一律 这是最值得关注的升级,3.1 Flash Live 比上一代 2.5 Flash Native Audio 更准确地识别音调、语速变化,能判断你是着急、困惑还是好奇,然后调整自己回复的长度和语气。 ③ 对话记忆翻倍:长聊不失忆 上下文窗口 128K token,上下文跟踪长度是前代的 2 倍。 ④ 嘈杂环境下的指令理解更好 在 Scale AI 的 Audio MultiChallenge 测试中得分 36.1%(开启思考模式),这个测试专门模拟真实语音中的打断、犹豫、背景噪音等干扰。
#Google
#Gemini 3.1
#AI语音
#全新语音模型
#自然对话
#复杂任务执行
#多语言支持
#延迟优化
分享
评论 0
0
宝玉
4个月前
现在微信读书的AI语音已经挺不错了,听得很自然,不过一些细节还是有待完善,比如“了心”是个人名,第一次读“le”,第二次读对了是“liao”
#微信读书
#AI语音
#用户体验
#细节待完善
#人名误读
分享
评论 0
0
独立开发者|欧维Ove
5个月前
AI语音生成的赛道跑出来了很多成功的独立开发产品啊
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#AI语音
#独立开发
#产品成功
分享
评论 0
0
Leo Xiang
5个月前
11labs 已经有这么丰富的产品组合了,国内最接近11labs的公司是哪家?
#11Labs
#AI语音
#产品组合
#国内公司
#技术对比
分享
评论 0
0
Gantrol
8个月前
李沐的语音LLM,在文本大模型基础上加入语音输入输出,开源训练方法与权重。需要10-12 GB VRAM 没有这种模型之前,AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成,响应容易慢。而且大段文本不一定适合念出来,念出来也不一定符合“情感”
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#李沐
#语音LLM
#开源
#AI语音
#AI客服
分享
评论 0
0
Tony出海
8个月前
AI实时语音专家 leeo xiang 老师,开源新项目BlastOff, 用小模型先回复,然后大模型续上,实现了毫秒级即时响应,LLM 首句延迟可以大幅降低到100ms级别。 Github: 当< 200ms响应,就能感觉像真人对话。在设备端实现高速响应,降低云端延迟!在AI语音应用搞起来!
#AI语音
#实时语音
#LLM
#低延迟
#BlastOff
分享
评论 0
0
Gorden Sun
8个月前
ElevenLabs v3语音模型,AI语音的言出法随时刻
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#elevenlabs
#v3语音模型
#AI语音
#语音合成
#技术进展
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞