#LLaVA-OneVision

10个月前

苹果发布 FastVLM 能在 iPhone 上直接运行的极速视觉语言模型首 token 输出快 85 倍 FastVLM：先把图像看懂（图像 → token），再根据 token 生成回答或描述（token → 语言）模型体非常积小，可以很轻松部署在 iPhone、iPad、Mac 上 FastVLM-0.5B：相较于 LLaVA-OneVision-0.5B，首 token 输出快 85 倍，模型体积小 3.4 倍。 FastVLM-7B（+ Qwen2-7B LLM）：优于 Cambrian-1-8B，在相同精度下首 token 输出快 7.9 倍。

#苹果发布 #视觉语言模型 #FastVLM #iPhone #LLaVA-OneVision #技术创新 #极速