宝玉 0 关注者 关注 5小时前 Anthropic 在限量发布 Claude Mythos Preview 之前,用可解释性技术给模型做了一次"脑部扫描",发现它内部存在相当复杂的策略性思维和情境感知能力,有时候这些思维在为不当行为服务,而且模型嘴上不说。 Anthropic 可解释性团队的 Jack Lindsey 发了一组帖子,详细披露了他们的发现。先说前提:最吓人的例子来自模型的早期版本,在最终发布版中已经做了大幅缓解, #Anthropic #Claude #人工智能 #可解释性技术 前往原网页查看