时政
财经
科技
虚拟货币
其他
登录
#模型安全
关注
sitin
5天前
Anthropic宣布为Claude Opus 4及4.1版本推出新功能,模型可在极少数情况下主动结束对话。功能针对持续性有害或辱骂性互动,如用户索取可能导致大规模暴力或恐怖行动的信息。 Claude 不会在用户可能有自我伤害或伤害他人的紧急风险情况下使用“结束对话”的能力,模型仅会在以下两类极端情境中启用此功能: 多次尝试岔开话题失败,且已无继续进行建设性互动的可能; 用户明确请求 Claude 结束对话。 此举旨在保护A!模型本身,同时与模型对齐和安全措施相关。 提醒一下,当 Claude 选择结束对话后,用户将无法在当前对话中继续发送新消息,但不影响其他对话,并可立即发起新的对话。 为避免原对话内容丢失,用户仍可编辑并重试之前的消息,从而基于已结束的对话创建新的分支。
#Claude Opus
#对话结束功能
#有害互动
#模型安全
#Anthropic
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞