#评估训练探索治理

5个月前

情感，好奇心，美德，伦理。在后训练硬核的氛围里，这些人文范畴的词汇，如何跟 LLM 结合？一直很喜欢腾讯团队的这条轨迹的工作：SAGE，RLVER，CDE，以及 Hunger Game Debate 极具美感，探索了如何以人文价值去评估、训练、探索与治理 LLM。「评估」 Paper 1: Sentient Agent as a Judge Sage 找到量化LLM情商指数的心理学理论基础，为认知评估流程提供了内部一致性，意为着可以为情绪打分的Sentiment Agent成为可能，即Sentient Agent as a Judge。「训练」 Paper 2: Reinforcement Learning with Verifiable Emotion Rewards 依托 Sentiment Agent，让情绪分变成可用奖励，从而与 RLVR 结合，这就是 RLVE（Emotion）R, 让小模型也可以高情商。「探索」 Paper 3: CDE: Curiosity-Driven Exploration Perplexity 直给的翻译为困惑度，而积极的利用困惑度便是人类的好奇心，这种人文的理解，让作者可以把curiosity 融入奖励函数中，来指导 RLVR 中的探索。「治理」 Paper 4: Hunger Game Debate HATE 将 LLM 置入类似饥饿游戏的零和辩论。压力下，它们会过度竞争，最终任务质量下降。若有客观、公正的评审则可缓解；若评审带偏见，则会加剧谄媚。失衡的外部激励足以影响模型内部建立的情感价值，因此外部治理至关重要。评估，训练，探索，治理。这条轨迹太好了，读完这系列论文，受益匪浅。

#LLM #情感 #价值观 #评估训练探索治理 #腾讯团队