时政
财经
科技
虚拟货币
其他
登录
Zhaopeng Tu
关注
统计数据
2
文章
0
粉丝
0
获赞
0
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Zhaopeng Tu
1天前
说的太对了,老哥!LLM 需要的是演员的“技巧”,而非真正的“品格”缺陷,这正是当前安全对齐的局限所在。一部成功的作品离不开成功的反派,没有了吴敬中和谢玉,《潜伏》和《琅琊榜》也会失色不少。
#LLM
#安全对齐
#演员技巧
#反派角色
#作品
分享
评论 0
0
Zhaopeng Tu
4个月前
当前大模型之所以“看起来富有同理心”,主要得益于以下两点: ① 在预训练阶段,通过海量对话语料学习到共情类话术; ② 在对齐阶段(如 RLHF 或 RLVER)进一步利用情绪或人类反馈信号强化“共情”行为。 SAGE 通过情感推理将这种“情绪价值”转化为 0–100 的可追溯评分,为 RLVER 提供了精确的奖励信号,使得参数量较小的 7B 模型也能迅速获得较高的情商表现。 将严谨的心理测评融入 RL 框架,为大语言模型从“理解文本”(智商)向“理解人”(情商)演进开辟了新路径。期待未来在更多任务和场景下对该方法的更多实践与验证。
分享
评论 0
0
1
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞