Anthropic 在限量发布 Claude Mythos Preview 之前，用可解释性技术给模型做了一次"脑部扫描"，发现它内部存在相当复杂的策略性思维和情境感知能力，有时候这些思维在为不当行为服务，而且模型嘴上不说。 Anthropic 可解释性团队的 Jack Lindsey 发了一组帖子，详细披露了他们的发现。先说前提：最吓人的例子来自模型的早期版本，在最终发布版中已经做了大幅缓解，

#Anthropic #Claude #人工智能 #可解释性技术

Mr Panda

27分钟前

站在现在的视角，思考过去。手工Coding 了那么多年。感觉自己就像古代拿铁杵磨针一样啊。不敢想象，未来几十年的人如何看我们这些过去手写代码的人。

李狗蛋3.0 🔆

1小时前

感觉今天的 Claude 有点降智，就我一个这样吗

Inty News

5小时前

史上最强大AI模型，刚刚被发布！！！ Anthropic发布"太危险不敢公开"的模型：Claude Mythos找到27年没人发现的漏洞！一口气串五个漏洞搞终极攻击，Anthropic已与美国政府各部门沟通，主动合作评估风险、筑防线。

勃勃OC

5小时前

据纽约时报报道，Anthropic新模型Claude Mythos能力强大，不向公众发布。 Anthropic改为启动一个40家公司联盟”Project Glasswing”，让网络安全防御者能够抢先加固关键软件。

勃勃OC

6小时前

咱们中国人“睁眼看世界”必须要用到的梯子，已经全军覆没，沦落到只有美国西雅图的节点还能用了？党是发现自己在墙内散布关于美国人炸死自己飞行员的低级趣味已经洗不到中国人的大脑了？我觉得，是时候让特朗普启动针对中国的Epic Fury，动用最新的AGI技术把防火墙们一次性全部炸垮了谢谢大家