1天前

阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:

相关新闻

关联事件