时政

财经

科技

#GUI智能体

2025-01-23 10:59:04

字节的可以直接操作图形界面的原生 GUI 智能体模型UI-TARS，类似于 Claude 的 Computer Use，可以只靠截取的界面图片就能理解并操作软件。就像我们人类直接看手机或电脑屏幕一样，利用眼睛去“认”，再动手指去“点”。UI-TARS学会了从图片中辨别按钮、输入框、下拉菜单等各种元素，也能知道“这个图标大概率是搜索按钮”“这个区域是文本框”等信息。 UI-TARS具备四个
#字节 #GUI智能体 #UI-TARS

没有更多了 🤐