Zhaopeng Tu

Zhaopeng Tu

0 关注者

4个月前

当前大模型之所以“看起来富有同理心”,主要得益于以下两点: ① 在预训练阶段,通过海量对话语料学习到共情类话术; ② 在对齐阶段(如 RLHF 或 RLVER)进一步利用情绪或人类反馈信号强化“共情”行为。 SAGE 通过情感推理将这种“情绪价值”转化为 0–100 的可追溯评分,为 RLVER 提供了精确的奖励信号,使得参数量较小的 7B 模型也能迅速获得较高的情商表现。 将严谨的心理测评融