宝玉
0 关注者
karminski-牙医
1个月前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:
dontbesilent
2个月前
微信这个语音识别的按钮救了我的命 应该是把微信输入法的语音识别集成过来了 iOS 系统听写太难用了,又不像安卓可以随意使用第三方输入法听写 现在移动端输出效率大幅提升
Shaolei Zhang
3个月前
👏🏻Stream-Omni:一个类GPT-4o的文本-视觉-语音多模态大模型 (1)同时支持文本、视觉、语音输入,生成文本和语音回复。 (2)语音交互过程中,同步生成中间的语音识别、文本回复结果,提供更加全面的多模态交互体验! 📝论文: 🔗代码&Demo:
ding.one
很多人都慢慢发现用语音代替打字的快捷了,不管是 vibe coding 还是和 AI 对话效率都爆棚,未来的操作系统肯定会把鼠标和键盘更加边缘化的。但目前这个赛道太卷了,我已经尝试过这么多了: Superwhisper: Willow Voice: Aqua Voice: Macwhisper: WisprFlow: Harker: VoiceInk: Spokenly: Voic
sitin
OpenAI高级语音功能大升级!对话像真人般自然流畅,语调有起伏、节奏更真实,还自带情绪表达,从同理心到讽刺全都拿捏。 语音翻译更是厉害,多轮对话无需重复指令,旅行、商务、学习全搞定。