宝玉 0 关注者 关注 8个月前 字节的可以直接操作图形界面的原生 GUI 智能体模型UI-TARS,类似于 Claude 的 Computer Use,可以只靠截取的界面图片就能理解并操作软件。 就像我们人类直接看手机或电脑屏幕一样,利用眼睛去“认”,再动手指去“点”。UI-TARS学会了从图片中辨别按钮、输入框、下拉菜单等各种元素,也能知道“这个图标大概率是搜索按钮”“这个区域是文本框”等信息。 UI-TARS具备四个 #字节 #GUI智能体 #UI-TARS #软件操作 #智能界面 #计算机视觉 前往原网页查看