时政
财经
科技
虚拟货币
其他
登录
#Qwen3-Omni
关注
Compute King
1个月前
凌晨,阿里重磅开源三款模型,一举刷新32项业界SOTA 太卷了呀,兄弟们!我想回农村。 今日凌晨,阿里通义大模型团队一口气发布三款开源模型:原生全模态大模型Qwen3-Omni;语音生成模型Qwen3-TTS;以及完成重要升级的图像编辑模型Qwen-Image-Edit-2509。 其中,Qwen3-Omni可同时处理文本,图像,音频与视频输入,并实现实时流式的文本与自然语音输出。在36项音频及音视频基准测试中,该模型斩获32项开源SOTA与22项总体SOTA,性能超越Gemini-2.5-Pro,Seed-ASR,GPT-4o-Transcribe等闭源强模型。同时,其图像与文本表现也在同尺寸模型中达到行业最优。 Qwen3-TTS支持17种音色和10种语言,在语音稳定性与音色相似度方面优于SeedTTS,GPT-4o-Audio-Preview 等主流产品。Qwen-Image-Edit-2509则新增多图编辑功能,能够实现人物与人物,人物与物体等跨图像拼接,显著扩展了应用场景。 此次开源还包括Qwen3-Omni-30B-A3B-Instruct(指令跟随)、Qwen3-Omni-30B-A3B-Thinking(推理)以及通用音频字幕器Qwen3-Omni-30B-A3B-Captioner。 相关开源地址已同步上线: Hugging Face: GitHub: 此次“三连击”不仅进一步强化了阿里在多模态与语音生成领域的全球竞争力,也再次引爆了开源社区的关注。
#阿里
#开源模型
#Qwen3-Omni
#多模态
#SOTA
分享
评论 0
0
nicekate
1个月前
Qwen3-Omni 不降智还超越,太牛了 Qwen3-Omni 技术报告写道: Qwen3-Omni-30B-A3B-Instruct 对比 Qwen3-235B-A22B 前者在 GPQA、AIME25、ZebraLogic、WritingBench 上超越后者更大的模型 多模态训练反而提升了语言能力
#Qwen3-Omni
#AI模型
#技术突破
#多模态训练
#性能超越
分享
评论 0
0
外汇交易员
1个月前
阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌图像模型Nano Banana的Qwen-Image-Edit-2509。 Qwen3-Omni是业界首个原生端到端全模态AI模型,可处理文本、图像、音频和视频输入,并可通过文本与自然语音实时流式输出结果,解决了多模态模型需要在不同能力之间进行权衡取舍的难题。
#阿里云
#Qwen3-Omni
#多模态AI模型
#开源
#Qwen3-TTS
分享
评论 0
0
Gorden Sun
1个月前
阿里发布一系列新模型: Qwen3-Omni Qwen-Image-Edit-2509 Qwen3-TTS(未开源) 全面对标Gemini,太热闹了
Google Gemini 2.5发布引发AI模型性价比热议· 279 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#阿里
#Qwen3-Omni
#Gemini
#AI模型
#科技
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞