#AI模型评测

4个月前

实测结果（个人感受）： Gemini3 在AI Studio，在Antigravity，在ClaudeCode裸模调用，是完全的三个东西。在AI Studio中，沙盒内流程被高度优化过，目的就是迅速生成“可以把玩”的应用。以首发命中（一次调用后Preview成功率）作为关键指标。这在从生成到预览的前端体验流程上，确实Top1了。在Antigravity中，跑在一套更复杂的Plan+Review+Walkthrough等流程中，体验上确实被拔高了。相当于活生生从山泉水封装成一整套地暖系统，这就难评了，模型能力VS工作流优化和工程化能力？裸连调用，在CLI模式下，和Claude4.5没有明显优势，编程得分不会骗人。总结：Gemini3 = Claude4.5 + 一桌子化妆品 + 一大堆衣服 + 精心打扮 + 喷点儿香水。

#Gemini3 #Claude4.5 #AI模型评测 #AI Studio #Antigravity

6个月前

新视频上线——实测 DeepSeek V3.2‑Exp PK Qwen 3 Max 测试包括信息可视化（《人类简史》《黑客与画家》）翻译与诗歌生成、面向儿童的科普、指令鲁棒性、安全与拒绝策略、“大海捞针”检索、零售经营分析 V3.2‑Exp 的突破不仅是“降本增效”，更为行业提供了通过架构升级提升效率的可行路径完整视频：🧵

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek V3.2-Exp #Qwen 3 Max #AI模型评测 #架构升级 #降本增效

6个月前

GLM 4.5搭配Claude Code是最接近Opus 4的产品 > 在伯克利函数调用基准测试中，GLM 4.5胜过了Opus 4和Sonnet 4 > GLM针对Claude Code的编码套餐价格为3美元/15美元，而非100美元/200美元 > 对于智能代理而言：GLM 4.5 > KIMI K2 > QWEN 3 235B NON-THINKING > Qwen 3 CODER 480B

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#GLM 4.5 #Claude Code #Opus 4 #AI模型评测 #性价比

8个月前

新视频上线——实测智谱 GLM-4.5，本地部署 GLM-4.5-Air 及构建 AI 应用时间戳 00:00 - GLM-4.5 初体验：性能、价格与API限制 01:20 - AI能力实测 05:53 - 本地化部署 GLM-4.5-Air 07:34 - 构建 AI 应用（AI SDK + LM Studio） 11:15 - 思考：如何选择适合你的AI模型完整视频：🧵

#智谱 GLM-4.5 #AI模型评测 #本地部署 #AI应用构建 #LM Studio