图表显示,到 2025 年 5 月底,在被追踪的多个国家中,中国的平均净好感度升至 +8.8,美国则降至 -1.5,中国已反超美国。 这张图最值得注意的地方,不是“中国突然变得更受欢迎了”,而是美国的全球净好感度在 2025 年初出现了明显下滑,并被中国反超。 从走势看,2024 年大部分时间里,美国一直明显领先,全球平均净好感度大致维持在正 20 附近;中国则长期处于负值区间,整体大约在负 6 到 0 之间波动。那时的国际观感格局很清楚:美国整体形象明显强于中国。 但进入 2025 年后,局面迅速变化。美国净好感度从年初开始一路下滑,几个月内从大约正 20 跌到负值区间,图表最后停在 -1.5。 相比之下,中国的变化更像是持续回升:从 2024 年初的负值,慢慢爬升到 +8.8,并在 2025 年春季正式超过美国。 这说明,中美国际形象的逆转,并不只是因为中国“加了很多分”,更大程度上也是因为美国“丢了很多分”。 这类数据反映的是其他国家怎么看中美。图下注明,样本来自加拿大、英国、法国、德国、日本、韩国、印度、澳大利亚、巴西、墨西哥、意大利、西班牙和俄罗斯等国。 数据来源是 Morning Consult,图表由 Axios Visuals 制作。图中说明,统计区间为 2024 年 1 月 1 日至 2025 年 5 月 30 日,采用 7 天简单移动平均,调查对象为部分国家成年人,且不包括美国人和中国人对本国的评价。
非常感谢马老师的打call !! 忍不住分享一点SkillCraft背后的故事。 初衷起源于我们去年对 embodied LLM agent RL 的探索。当时我们让大模型用 RL 学推箱子,怎么训都训不上去。探索之后我们发现,这不是 RL 的问题,而是 grounding 的问题:任务极度依赖坐标,但模型却无法从一堆二维字符串里自己提取出坐标信息。无奈之下我们当时用了简单粗暴的解法:直接改渲染函数,手动把坐标喂给模型再做 RL,同时让它做坐标转移预测来学 world model 作为 mid-training,效果很好。这条路后来写成了 SPA: 问题是解决了,但我们一直不甘心。与其每次都由先验来告诉模型"你缺的是坐标",它能不能自己发现自己被什么卡住了,然后自己造个工具,把未知的状态空间转化成它能理解的表征?说到底,工具的本质是压缩: 把一段反复出现的认知或操作开销封装起来,让后续调用的边际成本趋近于零。人类造工具如此,模型造工具也应该如此。 沿着这个思路,我们花了很长时间思考:模型应该怎么造工具?造什么样的工具?造出来之后又怎么存、怎么复用? 以及什么样的场景才能激发出模型“造工具的智能”? 于是,我们基于 OpenClaw 式的真实任务 benchmark Toolathlon,设计了四个极简协议:save_skill、get_skill、list_skills 和 execute_skill,使模型能够自主发现、调用并存储自己构造出的工具。同时,我们还合成了一批模拟真实场景中重复工作流的任务,用于系统评测模型运用这些协议的能力。 更详细的答案在 SkillCraft: