时政
财经
科技
虚拟货币
其他
登录
#视觉理解
关注
sitin
1个月前
阿里巴巴通义千问团队发布的 Qwen3-VL,正是这样一款跨越视觉与语言边界的模型。 它不仅能理解文字、生成内容,还能“看图识意”、“看视频理解场景”、“解析界面元素”,甚至自动生成 HTML/CSS 代码,让 AI 真正具备“视觉思考能力”。 核心亮点 ·视觉理解飞跃:能看懂图片、网页、PDF、视频帧,进行语义推理和内容描述。 ·视觉编码生成:自动识别界面并生成 HTML/CSS/JS 代码。 ·空间与动态感知增强:判断位置、方向、交互元素,支持空间推理与动态视频理解。 ·多语言OCR:支持 32 种语言识别,弱光、模糊场景也能准确提取文字。 ·指令理解更强:基于更深层的 instruction-tuning,使交互更加自然。 ✅关于显存与性能: Qwen3-VL 的 2B 模型大约需要 8GB 显存可流畅运行,若使用 7B 或 72B 模型可搭配 LoRA 或量化推理方案。 ✅ 关于输入分辨率: 图像可自动缩放到合适尺寸,但建议不超过 1024×1024。视频可自动抽取关键帧。 ✅ 关于输出优化: 可通过 max_new_tokens、temperature、top_p 参数控制生成长度与随机性; 对于多语言 OCR 任务,建议在 Prompt 中明确语言类型(如 “请用英文输出”)。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 21 条信息
#通义千问
#Qwen3-VL
#视觉理解
#多模态模型
#AI
分享
评论 0
0
nicekate
1个月前
等不及 MLX 版的 DeepSeek-OCR了,折腾了会,把它在 Mac 上跑起来 DeepSeek-OCR 不仅是 OCR 模型,还有视觉理解能力 我试了 resize 512、640、padding 1024,Mac 走 CPU 还是 640 分辨率效果速度均衡些
深度学习模型升级引发AI能力大跃进,行业迎新变革· 143 条信息
#DeepSeek-OCR
#Mac
#CPU
#视觉理解
#OCR模型
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞