#Qwen3-VL

4个月前

最近我自己有一个反推视频图片提示词的需求，需要能够破限无审查，所以线上的大模型都用不了。就直接在本地0到1让AI写了一个Next.js的壳出来，用的三方Qwen3-VL破限模型。这样可以做批量处理，也可以做很多自定义的东西。前后只花了一个小时。可以反推任何视频图片（无审查）生成prompt。效率太高了

#反推视频图片 #AI #Next.js #Qwen3-VL #无审查

5个月前

阿里巴巴通义千问团队发布的 Qwen3-VL，正是这样一款跨越视觉与语言边界的模型。它不仅能理解文字、生成内容，还能“看图识意”、“看视频理解场景”、“解析界面元素”，甚至自动生成 HTML/CSS 代码，让 AI 真正具备“视觉思考能力”。核心亮点 ·视觉理解飞跃：能看懂图片、网页、PDF、视频帧，进行语义推理和内容描述。 ·视觉编码生成：自动识别界面并生成 HTML/CSS/JS 代码。 ·空间与动态感知增强：判断位置、方向、交互元素，支持空间推理与动态视频理解。 ·多语言OCR：支持 32 种语言识别，弱光、模糊场景也能准确提取文字。 ·指令理解更强：基于更深层的 instruction-tuning，使交互更加自然。 ✅关于显存与性能： Qwen3-VL 的 2B 模型大约需要 8GB 显存可流畅运行，若使用 7B 或 72B 模型可搭配 LoRA 或量化推理方案。 ✅ 关于输入分辨率：图像可自动缩放到合适尺寸，但建议不超过 1024×1024。视频可自动抽取关键帧。 ✅ 关于输出优化：可通过 max_new_tokens、temperature、top_p 参数控制生成长度与随机性；对于多语言 OCR 任务，建议在 Prompt 中明确语言类型（如 “请用英文输出”）。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#通义千问 #Qwen3-VL #视觉理解 #多模态模型 #AI

6个月前

阿里又发布一系列新模型和新产品其中开源的是Qwen3-VL和Qwen3Guard。 · Wan2.5-Preview：最新版的视频模型，对标Veo 3 可以同时生成视频和音频。未开源。在线使用： · Qwen3-VL：开源最佳视觉模型。开源的是235B-A22B版本，包含推理和非推理模型，推理模型在推理任务上表现优异。之前基于Qwen 2.5 VL的Agent可以升级一波了。模型： · Qwen3-Max：Qwen系列最强模型之前是Preview版本，这次是正式版。未开源。在线使用： · Qwen3-LiveTranslate-Flash：实时多模态翻译能看懂嘴唇、手势、屏幕文字和现实场景，能听懂语音，并且用语音说出来。仅3秒延迟。未开源。在线体验： · Qwen3-Coder：版本升级提升在终端的表现。未开源。在线使用： · Qwen3Guard：安全审核模型多个大小的版本，支持实时监测和全文监测。模型： · 旅游规划AI助手由Qwen和高德地图、飞猪、搜索功能组合实现，能规划完整的旅游路线。在线使用：

#阿里 #Qwen3-VL #开源模型 #多模态翻译 #AI旅游助手

6个月前

Qwen3-VL-235B-A22B-Instruct 在ModelScope 魔搭上线啦🥳，魔搭啥时候能成我白嫖首选啊，关于Qwen3-VL有多牛批就不多bb了。 AI一句话锐评：在实用型任务（OCR、文档理解、智能体、编程）上简直起飞，综合能力接近甚至碾压业界顶流。但在抽象逻辑推理与空间定位等烧脑任务上还是有点拉胯，需要再练练。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#Qwen3-VL #ModelScope魔搭 #AI #OCR #文档理解