马东锡 NLP 0 关注者 关注 1个月前 LLM 人格,三篇一起看。 Persona Vectors: 对比模型在特定特质(evil, hallucination)存在与否的状态,提取激活该特质的线性方向, steer LLM 相应人格。 DeepMind: 固定的 steering 方法,在多轮对话的情况下会失效,LLM 发生 representation drift, 可以引申为人格漂移。 Assistant Axis: 前往原网页查看