李沐的语音LLM，在文本大模型基础上加入语音输入输出，开源训练方法与权重。需要10-12 GB VRAM 没有这种模型之前，AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成，响应容易慢。而且大段文本不一定适合念出来，念出来也不一定符合“情感”

#李沐 #语音LLM #开源 #AI语音 #AI客服

相关新闻

Gorden Sun

2天前

飞书开源CLI工具 Agent可以直接操作飞书了，包括收发消息、创建和管理群、日常、文档、多维表格等几乎全部功能的支持，人能操作的以后都可以交给AI操作了。软件CLI化是趋势，但是飞书这一步操作确实很前卫，全面拥抱AI了。 Github：

Justineo

3天前

在团队周会上给大家分享了一下我自己是怎么使用 AI 的，整份 slides 全是和 Claude Code 一起脑暴以后我 review 了十几轮以后生成的。我把内容以及和 AI 的全部讨论记录全部放在 GitHub 上了，我觉得这应该可以叫真·开源。

小互

3天前

Google 发布 Gemini 3.1 Flash Live 全新语音模型更快响应更自然对话记忆翻倍支持 90 多种语言，200 多个国家和地区 Gemini 3.1 Flash Live是基于 Gemini 3 Pro 单独训练的独立模型，专门优化了延迟、语调感知和复杂任务执行四大核心升级 ① 响应更快，对话不再有"尴尬停顿" 以前跟 AI 语音对话，说完一句话要等一两秒

idoubi

4天前

开源 FastClaw：做更好的 OpenClaw 发行版 1. 使用 Go 开发，3000 行代码实现 OpenClaw 核心功能 2. 单二进制（5MB）分发，轻量级安装，无环境依赖 3. 秒级启动，资源占用小（内存占用约为 OpenClaw 的 1/7） 4. 支持可视化安装，上手门槛很低 5. 支持个人本地使用，原生支持云端多租户场景 6. 支持 OpenClaw 90% 功能，兼容 O

小互

4天前

昨天很火的桌面小人开源了装上会有两个小人在你 MacOS Dock 上方，来回走动点击任意一个弹出 Claude 终端窗口，直接和 Claude Code 对话... 我正在改造看看能不能增加更多有意思的功能

关联事件

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议

869

在新德里举行的活动中，OpenAI宣布即将推出o3-Pro模型，取代现有的o1-Pro模型，旨在提升ChatGPT的推理能力和功能。同时，OpenAI还发布了ChatGPT高级语音模式的升级，新增了自然停顿、重音处理、同理心表达和双向自动翻译等功能。这一更新已向所有付费用户开放，预计将进一步增强ChatGPT的用户体验和市场竞争力。随着用户基数的不断扩大，OpenAI的这些新功能引发了广泛关注，尤其是在人工智能语音交互领域的应用潜力。