#视觉理解

4个月前

阿里巴巴通义千问团队发布的 Qwen3-VL，正是这样一款跨越视觉与语言边界的模型。它不仅能理解文字、生成内容，还能“看图识意”、“看视频理解场景”、“解析界面元素”，甚至自动生成 HTML/CSS 代码，让 AI 真正具备“视觉思考能力”。核心亮点 ·视觉理解飞跃：能看懂图片、网页、PDF、视频帧，进行语义推理和内容描述。 ·视觉编码生成：自动识别界面并生成 HTML/CSS/JS 代码。 ·空间与动态感知增强：判断位置、方向、交互元素，支持空间推理与动态视频理解。 ·多语言OCR：支持 32 种语言识别，弱光、模糊场景也能准确提取文字。 ·指令理解更强：基于更深层的 instruction-tuning，使交互更加自然。 ✅关于显存与性能： Qwen3-VL 的 2B 模型大约需要 8GB 显存可流畅运行，若使用 7B 或 72B 模型可搭配 LoRA 或量化推理方案。 ✅ 关于输入分辨率：图像可自动缩放到合适尺寸，但建议不超过 1024×1024。视频可自动抽取关键帧。 ✅ 关于输出优化：可通过 max_new_tokens、temperature、top_p 参数控制生成长度与随机性；对于多语言 OCR 任务，建议在 Prompt 中明确语言类型（如 “请用英文输出”）。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#通义千问 #Qwen3-VL #视觉理解 #多模态模型 #AI

4个月前

等不及 MLX 版的 DeepSeek-OCR了，折腾了会，把它在 Mac 上跑起来 DeepSeek-OCR 不仅是 OCR 模型，还有视觉理解能力我试了 resize 512、640、padding 1024，Mac 走 CPU 还是 640 分辨率效果速度均衡些

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #Mac #CPU #视觉理解 #OCR模型