阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频，输出也是音频，可以实现对话)。帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的，对话能力差一点，稍后为大家带来评测！模型地址：

#开源 #音频模型 #Step #GPT-4o #语音识别

相关新闻

Jiayuan (JY) Zhang

12小时前

预告一个过去几个月我们内部在开发 & 使用的 Agent 产品：Multica 一个开源的 AI 员工平台，支持把团队的算力资源（claude code, codex 等）注册到一个 workspace 中，并像 Linear 一样来管理这些 agent。目前还非常早期，预计最近一段时间会正式发布。

Gorden Sun

2天前

飞书开源CLI工具 Agent可以直接操作飞书了，包括收发消息、创建和管理群、日常、文档、多维表格等几乎全部功能的支持，人能操作的以后都可以交给AI操作了。软件CLI化是趋势，但是飞书这一步操作确实很前卫，全面拥抱AI了。 Github：

AB Kuai.Dong

2天前

字节给苹果笔记本 MacOS，开放内测的豆包输入法，太厉害了。安装后，只需要在输入栏，双击 Option 键，就能呼出语音识别。需要补充的是，这条推文也是我用嘴说出来的。等同于，我可以带着电脑，线下去录制语音转文字。推上有不少人贴了获取方式。

Justineo

3天前

在团队周会上给大家分享了一下我自己是怎么使用 AI 的，整份 slides 全是和 Claude Code 一起脑暴以后我 review 了十几轮以后生成的。我把内容以及和 AI 的全部讨论记录全部放在 GitHub 上了，我觉得这应该可以叫真·开源。

Gorden Sun

4天前

Cohere开源语音识别模型Transcribe 2B参数，本地能跑，可能是目前的开源最佳，但是不确定中文识别的效果如何。模型：

关联事件

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议

869

在新德里举行的活动中，OpenAI宣布即将推出o3-Pro模型，取代现有的o1-Pro模型，旨在提升ChatGPT的推理能力和功能。同时，OpenAI还发布了ChatGPT高级语音模式的升级，新增了自然停顿、重音处理、同理心表达和双向自动翻译等功能。这一更新已向所有付费用户开放，预计将进一步增强ChatGPT的用户体验和市场竞争力。随着用户基数的不断扩大，OpenAI的这些新功能引发了广泛关注，尤其是在人工智能语音交互领域的应用潜力。