#多模态翻译

6个月前

阿里又发布一系列新模型和新产品其中开源的是Qwen3-VL和Qwen3Guard。 · Wan2.5-Preview：最新版的视频模型，对标Veo 3 可以同时生成视频和音频。未开源。在线使用： · Qwen3-VL：开源最佳视觉模型。开源的是235B-A22B版本，包含推理和非推理模型，推理模型在推理任务上表现优异。之前基于Qwen 2.5 VL的Agent可以升级一波了。模型： · Qwen3-Max：Qwen系列最强模型之前是Preview版本，这次是正式版。未开源。在线使用： · Qwen3-LiveTranslate-Flash：实时多模态翻译能看懂嘴唇、手势、屏幕文字和现实场景，能听懂语音，并且用语音说出来。仅3秒延迟。未开源。在线体验： · Qwen3-Coder：版本升级提升在终端的表现。未开源。在线使用： · Qwen3Guard：安全审核模型多个大小的版本，支持实时监测和全文监测。模型： · 旅游规划AI助手由Qwen和高德地图、飞猪、搜索功能组合实现，能规划完整的旅游路线。在线使用：

#阿里 #Qwen3-VL #开源模型 #多模态翻译 #AI旅游助手

6个月前

阿里今天还放出来一款实时多模态同传模型：Qwen3-LiveTranslate-Flash，具备视觉能力，能听能看，3秒延迟可实时翻译能识别18语言和粤语、北京话、四川话等6种方言，能说10种语言引入了视觉上下文增强技术，可以识别口型、动作、文字、实体，解决在嘈杂音频环境，或者是一词多译词场景下的翻译问题中英及多语言语音翻译准确度优于Gemini-2.5-Flash、GPT-4o-Audio-Preview、Voxtral Small-24B #AI同传 #Qwen3同传 #AI实时翻译

#AI同传 #Qwen3-LiveTranslate-Flash #多模态翻译 #实时翻译 #阿里