时政
财经
科技

#视觉语言模型

小互
小互
2025-05-12 14:23:42

苹果发布 FastVLM 能在 iPhone 上直接运行的极速视觉语言模型 首 token 输出快 85 倍 FastVLM:先把图像看懂(图像 → token),再根据 token 生成回答或描述(token → 语言) 模型体非常积小,可以很轻松部署在 iPhone、iPad、Mac 上 FastVLM-0.5B:相较于 LLaVA-OneVision-0.5B, 首 token

#苹果发布#视觉语言模型#FastVLM
Gorden Sun
Gorden Sun
2025-03-02 21:57:18

olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github: 模型: 在线使用:

#开源#OCR#视觉语言模型
没有更多了 🤐