阿里今天还放出来一款实时多模态同传模型：Qwen3-LiveTranslate-Flash，具备视觉能力，能听能看，3秒延迟可实时翻译能识别18语言和粤语、北京话、四川话等6种方言，能说10种语言引入了视觉上下文增强技术，可以识别口型、动作、文字、实体，解决在嘈杂音频环境，或者是一词多译词场景下的翻译问题中英及多语言语音翻译准确度优于Gemini-2.5-Flash、GPT-4o-

#AI同传 #Qwen3-LiveTranslate-Flash #多模态翻译 #实时翻译 #阿里

相关新闻

Andy Stewart

11小时前

Google 出的这个新功能怕是要一大堆智能硬件厂商拍桌子了。🥲 本身很多智能硬件厂商主打的功能之一就是“实时翻译” Google 这么一干，任何耳机都能充当实时翻译的设备🤣 这还真就是干掉你的，不一定是同行

Gorden Sun

6天前

PrismAudio：视频生成音效阿里开源的模型，输入视频，自动生成跟画面匹配的音效。效果还不错。项目地址：模型：

Y11

3个月前

高端招聘：阿里招通义实验室-算法专家-文档智能QwenDoc（P7-P8） ----- 通义实验室-算法专家-文档智能QwenDoc 通义实验室 · 北京|杭州职位描述专注于文档理解、推理、生成大模型的研究、探索和开发，具体职责包括：； 1. 通过研究超长上下文管理和记忆技术、模型自进化、long cot、数据自动合成技术等提升超长文本、多文档能力； 2. 长文本强化学习基础技术研究，包

Andy Stewart

4个月前

阿里老板说的挺好的，AI方面除了芯片和顶尖模型方面其实都是优势： 1. 电力网络充沛 2. AI人才的数量 3. 应用场景的丰富度

Tw93

4个月前

今年阿里是怎么赚钱和花钱的