#Qwen3-Omni

6个月前

凌晨，阿里重磅开源三款模型，一举刷新32项业界SOTA 太卷了呀，兄弟们！我想回农村。今日凌晨，阿里通义大模型团队一口气发布三款开源模型：原生全模态大模型Qwen3-Omni；语音生成模型Qwen3-TTS；以及完成重要升级的图像编辑模型Qwen-Image-Edit-2509。其中，Qwen3-Omni可同时处理文本，图像，音频与视频输入，并实现实时流式的文本与自然语音输出。在36项音频及音视频基准测试中，该模型斩获32项开源SOTA与22项总体SOTA，性能超越Gemini-2.5-Pro，Seed-ASR，GPT-4o-Transcribe等闭源强模型。同时，其图像与文本表现也在同尺寸模型中达到行业最优。 Qwen3-TTS支持17种音色和10种语言，在语音稳定性与音色相似度方面优于SeedTTS，GPT-4o-Audio-Preview 等主流产品。Qwen-Image-Edit-2509则新增多图编辑功能，能够实现人物与人物，人物与物体等跨图像拼接，显著扩展了应用场景。此次开源还包括Qwen3-Omni-30B-A3B-Instruct（指令跟随）、Qwen3-Omni-30B-A3B-Thinking（推理）以及通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。相关开源地址已同步上线： Hugging Face: GitHub: 此次“三连击”不仅进一步强化了阿里在多模态与语音生成领域的全球竞争力，也再次引爆了开源社区的关注。

#阿里 #开源模型 #Qwen3-Omni #多模态 #SOTA

6个月前

Qwen3-Omni 不降智还超越，太牛了 Qwen3-Omni 技术报告写道： Qwen3-Omni-30B-A3B-Instruct 对比 Qwen3-235B-A22B 前者在 GPQA、AIME25、ZebraLogic、WritingBench 上超越后者更大的模型多模态训练反而提升了语言能力

#Qwen3-Omni #AI模型 #技术突破 #多模态训练 #性能超越

外汇交易员

6个月前

阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS，以及对标谷歌图像模型Nano Banana的Qwen-Image-Edit-2509。 Qwen3-Omni是业界首个原生端到端全模态AI模型，可处理文本、图像、音频和视频输入，并可通过文本与自然语音实时流式输出结果，解决了多模态模型需要在不同能力之间进行权衡取舍的难题。

#阿里云 #Qwen3-Omni #多模态AI模型 #开源 #Qwen3-TTS

6个月前

阿里发布一系列新模型： Qwen3-Omni Qwen-Image-Edit-2509 Qwen3-TTS（未开源）全面对标Gemini，太热闹了

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#阿里 #Qwen3-Omni #Gemini #AI模型 #科技