刚刚，智谱直播开源其最新视觉模型：GLM-4.5V，多模态，支持图像、视频输入 GLM-4.5V 基于智谱 AI的下一代旗舰文本基础模型 GLM-4.5-Air底座（106B 参数，12B 有源），延续了 GLM-4.1V-Thinking 的技术路线，在 42 个公开的视觉语言基准测试中取得了同规模模型中的 SOTA 性能，涵盖了图像、视频和文档理解等常见任务，以及 GUI 代理操作。实现

#智谱AI #GLM-4.5V #多模态视觉模型 #开源 #图像视频理解

相关新闻

Jiayuan (JY) Zhang

3小时前

预告一个过去几个月我们内部在开发 & 使用的 Agent 产品：Multica 一个开源的 AI 员工平台，支持把团队的算力资源（claude code, codex 等）注册到一个 workspace 中，并像 Linear 一样来管理这些 agent。目前还非常早期，预计最近一段时间会正式发布。

Gorden Sun

2天前

飞书开源CLI工具 Agent可以直接操作飞书了，包括收发消息、创建和管理群、日常、文档、多维表格等几乎全部功能的支持，人能操作的以后都可以交给AI操作了。软件CLI化是趋势，但是飞书这一步操作确实很前卫，全面拥抱AI了。 Github：

Justineo

3天前

在团队周会上给大家分享了一下我自己是怎么使用 AI 的，整份 slides 全是和 Claude Code 一起脑暴以后我 review 了十几轮以后生成的。我把内容以及和 AI 的全部讨论记录全部放在 GitHub 上了，我觉得这应该可以叫真·开源。

idoubi

4天前

开源 FastClaw：做更好的 OpenClaw 发行版 1. 使用 Go 开发，3000 行代码实现 OpenClaw 核心功能 2. 单二进制（5MB）分发，轻量级安装，无环境依赖 3. 秒级启动，资源占用小（内存占用约为 OpenClaw 的 1/7） 4. 支持可视化安装，上手门槛很低 5. 支持个人本地使用，原生支持云端多租户场景 6. 支持 OpenClaw 90% 功能，兼容 O

小互

4天前

昨天很火的桌面小人开源了装上会有两个小人在你 MacOS Dock 上方，来回走动点击任意一个弹出 Claude 终端窗口，直接和 Claude Code 对话... 我正在改造看看能不能增加更多有意思的功能

关联事件

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限

智谱直播近日开源了其最新视觉模型GLM-4.5V，该模型基于其旗舰文本基础模型GLM-4.5-Air，拥有106B总参数和12B激活参数。GLM-4.5V在42个公开的视觉语言基准测试中表现出色，达到了同规模模型中的SOTA性能，支持图像、视频和文档理解等多种任务。该模型的推出标志着智谱在视觉推理领域的进一步突破，具备全场景视觉推理能力，能够处理复杂的图像推理和视频理解任务，预计将对AI视觉技术的发展产生深远影响。