#Step

karminski-牙医

7个月前

阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频，输出也是音频，可以实现对话)。帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的，对话能力差一点，稍后为大家带来评测！模型地址：

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#开源 #音频模型 #Step #GPT-4o #语音识别