时政

财经

科技

#视觉语言模型

2025-05-12 14:23:42

苹果发布 FastVLM 能在 iPhone 上直接运行的极速视觉语言模型首 token 输出快 85 倍 FastVLM：先把图像看懂（图像 → token），再根据 token 生成回答或描述（token → 语言）模型体非常积小，可以很轻松部署在 iPhone、iPad、Mac 上 FastVLM-0.5B：相较于 LLaVA-OneVision-0.5B，首 token

#苹果发布 #视觉语言模型 #FastVLM

2025-03-02 21:57:18

olmOCR：可能是目前最好的开源OCR模型基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码，4090可以本地运行。 Github：模型：在线使用：

#开源 #OCR #视觉语言模型

没有更多了 🤐