智谱
视觉推理突破
智谱 AI
文本基础模型
智谱直播
开源视觉模型
智谱直播近日开源了其最新视觉模型GLM-4.5V,该模型基于其旗舰文本基础模型GLM-4.5-Air,拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色,达到了同规模模型中的SOTA性能,支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破,具备全场景视觉推理能力,能够处理复杂的图像推理和视频理解任务,预计将对AI视觉技术的发展产生深远影响。
智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。 模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。 具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括: ·图像推理(场景理解、复杂多图分析、位置识别) ·视频理解(长
GLM-4.5V:智谱开源视觉模型 106B总参数,12B激活参数,开源最佳视觉模型。 模型:
刚刚,智谱直播开源其最新视觉模型:GLM-4.5V,多模态,支持图像、视频输入 GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座(106B 参数,12B 有源),延续了 GLM-4.1V-Thinking 的技术路线,在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能,涵盖了图像、视频和文档理解等常见任务,以及 GUI 代理操作。 实现
1个月前
Google Gemini 2.5发布引发AI模型性价比热议
2个月前
OpenAI大幅降价,o3模型API调用费用骤降80%
马斯克Grok再升级,4代直播发布引爆AI
AI高考数学测试:O3意外落后,Gemini夺冠引发热议
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议
深度学习模型升级引发AI能力大跃进,行业迎新变革
中国DeepSeek引发美国科技股暴跌事件
MiniMax M1发布:开源长上下文推理模型引发AI领域震动
AI视频井喷:Midjourney领跑,多模态混战