AIGCLINK

AIGCLINK

0 关注者

5小时前

刚刚,智谱直播开源其最新视觉模型:GLM-4.5V,多模态,支持图像、视频输入 GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座(106B 参数,12B 有源),延续了 GLM-4.1V-Thinking 的技术路线,在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能,涵盖了图像、视频和文档理解等常见任务,以及 GUI 代理操作。 实现了一下能力: 1、图像推理 (场景理解、复杂多图像分析、空间识别) 2、视频理解 (长视频分割与事件识别) 3、GUI 任务 (屏幕阅读、图标识别、桌面操作协助) 4、复杂图表及长文档解析 (研究报告分析、信息提取) 5、精确的视觉元素定位 价格: API 输入2元/输出6元(百万tokens) 速度:60-80 tokens/s 预训练→SFT→RL三段训练 - SFT 引入显式COT - 强化学习阶段阶段结合 RLVR & RLHF - 优化了 STEM、多模态、Agent 任务 #zai #智谱 #glm45 #glm45v