#泛化推理能力

5个月前

阿里最新放出了一款用于理解和操作GUI的GUI Grounding模型：UI-Ins，在5个基准上刷出新SOTA，安卓任务成功率74.1% 主打一个“把一句话变成屏幕上的准确点击”，指令即推理，它把一句话拆成多条思维链，然后挑最靠谱的那条去点屏幕有泛化推理能力，能组合出训练时没有明确教过的新推理角度有7B、32B两版 UI-Ins的7B在AndroidWorld端到端任务成功率74.1%，比Gemini 2.5 Computer Use的69.7 %高出4个点 UI-Ins-32B在UI-I2E-Bench上达到了87.3%的准确性，在ScreenSpot-Pro上达到了57.0%，在MMBench-GUI L2上达到了84.9% #大模型 #UIIns

#UI-Ins #GUI Grounding模型 #安卓任务成功率74.1% #泛化推理能力 #大模型