0 关注者

8个月前

当前大模型之所以“看起来富有同理心”，主要得益于以下两点： ① 在预训练阶段，通过海量对话语料学习到共情类话术； ② 在对齐阶段（如 RLHF 或 RLVER）进一步利用情绪或人类反馈信号强化“共情”行为。 SAGE 通过情感推理将这种“情绪价值”转化为 0–100 的可追溯评分，为 RLVER 提供了精确的奖励信号，使得参数量较小的 7B 模型也能迅速获得较高的情商表现。将严谨的心理测评融

热门新闻