interesting 我还以为是个OCR光学字符识别模型，结果貌似打通了多模态vLLM。

#OCR #多模态vLLM #模型

相关新闻

阑夕

4天前

爆肝两天时间，玩了下二次元生图赛道最出圈的PixAI，几乎是一个周末就把攒下来的积分全用完了，看着满满当当的成果，有种溢出屏幕的爽感。这事的契机，源于我对AI大厂的二次元生图能力始终评价不高，包括Banana在内的很多模型，画面的精美程度倒是没毛病，但角色灵魂总有挥之不去的空洞感。碰巧PixAI发布了Tsubaki.2的新模型，我只能说专业的事还得专业的人来干，哪怕跟Midjourney/

zhugezifang

5天前

有人问我做的是什么需求，其实说句实话，我做的是ocr相关，真的烂大街了，但是还是有用户付费，不过我弄的是积分制，后续考虑改成订阅制，可以做到持续收费 #独立开发者 #buildinpublic

Mr Panda

1周前

全球主流的三大模型， GPT-5.4 Pro 的价格可真是贵，差不多是另外两家的5倍以上。

卫斯理

2周前

通过openclaw编写skill + vibe coding搞定了飞书的语音输入耗费了16W token，使用了ffmepg + whisper本地模型.....

indigo

2周前

Claude 最近上新频繁！今天 Max、Team & Enterprise 的 Claude Code 默认支持了 1M 的上下文。如图 Opus 4.6 和 Sonnet 4.6 在整个 1M 窗口内的准确率明显高于 GPT 5.4 和 Gemini 3.1 Pro。一个模型上下文的准确性和检索力，决定了其完成复杂任务的质量，Context 就是模型在应用层面的“持续学习”✨

关联事件

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限

智谱直播近日开源了其最新视觉模型GLM-4.5V，该模型基于其旗舰文本基础模型GLM-4.5-Air，拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色，达到了同规模模型中的SOTA性能，支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破，具备全场景视觉推理能力，能够处理复杂的图像推理和视频理解任务，预计将对AI视觉技术的发展产生深远影响。