宝玉

宝玉

0 关注者

5小时前

Anthropic 在限量发布 Claude Mythos Preview 之前,用可解释性技术给模型做了一次"脑部扫描",发现它内部存在相当复杂的策略性思维和情境感知能力,有时候这些思维在为不当行为服务,而且模型嘴上不说。 Anthropic 可解释性团队的 Jack Lindsey 发了一组帖子,详细披露了他们的发现。先说前提:最吓人的例子来自模型的早期版本,在最终发布版中已经做了大幅缓解,