#模型安全

7个月前

Anthropic宣布为Claude Opus 4及4.1版本推出新功能，模型可在极少数情况下主动结束对话。功能针对持续性有害或辱骂性互动，如用户索取可能导致大规模暴力或恐怖行动的信息。 Claude 不会在用户可能有自我伤害或伤害他人的紧急风险情况下使用“结束对话”的能力，模型仅会在以下两类极端情境中启用此功能：多次尝试岔开话题失败，且已无继续进行建设性互动的可能；用户明确请求 Claude 结束对话。此举旨在保护A!模型本身，同时与模型对齐和安全措施相关。提醒一下，当 Claude 选择结束对话后，用户将无法在当前对话中继续发送新消息，但不影响其他对话，并可立即发起新的对话。为避免原对话内容丢失，用户仍可编辑并重试之前的消息，从而基于已结束的对话创建新的分支。

#Claude Opus #对话结束功能 #有害互动 #模型安全 #Anthropic