时政
财经
科技
虚拟货币
其他
登录
#Qwen3-VL
关注
sitin
3周前
阿里巴巴通义千问团队发布的 Qwen3-VL,正是这样一款跨越视觉与语言边界的模型。 它不仅能理解文字、生成内容,还能“看图识意”、“看视频理解场景”、“解析界面元素”,甚至自动生成 HTML/CSS 代码,让 AI 真正具备“视觉思考能力”。 核心亮点 ·视觉理解飞跃:能看懂图片、网页、PDF、视频帧,进行语义推理和内容描述。 ·视觉编码生成:自动识别界面并生成 HTML/CSS/JS 代码。 ·空间与动态感知增强:判断位置、方向、交互元素,支持空间推理与动态视频理解。 ·多语言OCR:支持 32 种语言识别,弱光、模糊场景也能准确提取文字。 ·指令理解更强:基于更深层的 instruction-tuning,使交互更加自然。 ✅关于显存与性能: Qwen3-VL 的 2B 模型大约需要 8GB 显存可流畅运行,若使用 7B 或 72B 模型可搭配 LoRA 或量化推理方案。 ✅ 关于输入分辨率: 图像可自动缩放到合适尺寸,但建议不超过 1024×1024。视频可自动抽取关键帧。 ✅ 关于输出优化: 可通过 max_new_tokens、temperature、top_p 参数控制生成长度与随机性; 对于多语言 OCR 任务,建议在 Prompt 中明确语言类型(如 “请用英文输出”)。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#通义千问
#Qwen3-VL
#视觉理解
#多模态模型
#AI
分享
评论 0
0
Gorden Sun
1个月前
阿里又发布一系列新模型和新产品 其中开源的是Qwen3-VL和Qwen3Guard。 · Wan2.5-Preview:最新版的视频模型,对标Veo 3 可以同时生成视频和音频。未开源。 在线使用: · Qwen3-VL:开源最佳视觉模型。 开源的是235B-A22B版本,包含推理和非推理模型,推理模型在推理任务上表现优异。之前基于Qwen 2.5 VL的Agent可以升级一波了。 模型: · Qwen3-Max:Qwen系列最强模型 之前是Preview版本,这次是正式版。未开源。 在线使用: · Qwen3-LiveTranslate-Flash:实时多模态翻译 能看懂嘴唇、手势、屏幕文字和现实场景,能听懂语音,并且用语音说出来。仅3秒延迟。未开源。 在线体验: · Qwen3-Coder:版本升级 提升在终端的表现。未开源。 在线使用: · Qwen3Guard:安全审核模型 多个大小的版本,支持实时监测和全文监测。 模型: · 旅游规划AI助手 由Qwen和高德地图、飞猪、搜索功能组合实现,能规划完整的旅游路线。 在线使用:
#阿里
#Qwen3-VL
#开源模型
#多模态翻译
#AI旅游助手
分享
评论 0
0
Geek
1个月前
Qwen3-VL-235B-A22B-Instruct 在ModelScope 魔搭上线啦🥳,魔搭啥时候能成我白嫖首选啊,关于Qwen3-VL有多牛批就不多bb了。 AI一句话锐评:在实用型任务(OCR、文档理解、智能体、编程)上简直起飞,综合能力接近甚至碾压业界顶流。但在抽象逻辑推理与空间定位等烧脑任务上还是有点拉胯,需要再练练。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 131 条信息
#Qwen3-VL
#ModelScope魔搭
#AI
#OCR
#文档理解
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞