Zhaopeng Tu

统计数据

2
文章
0
粉丝
0
获赞
0
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
Zhaopeng Tu
1天前
说的太对了,老哥!LLM 需要的是演员的“技巧”,而非真正的“品格”缺陷,这正是当前安全对齐的局限所在。一部成功的作品离不开成功的反派,没有了吴敬中和谢玉,《潜伏》和《琅琊榜》也会失色不少。
#LLM #安全对齐 #演员技巧 #反派角色 #作品
avatar
Zhaopeng Tu
4个月前
当前大模型之所以“看起来富有同理心”,主要得益于以下两点: ① 在预训练阶段,通过海量对话语料学习到共情类话术; ② 在对齐阶段(如 RLHF 或 RLVER)进一步利用情绪或人类反馈信号强化“共情”行为。 SAGE 通过情感推理将这种“情绪价值”转化为 0–100 的可追溯评分,为 RLVER 提供了精确的奖励信号,使得参数量较小的 7B 模型也能迅速获得较高的情商表现。 将严谨的心理测评融入 RL 框架,为大语言模型从“理解文本”(智商)向“理解人”(情商)演进开辟了新路径。期待未来在更多任务和场景下对该方法的更多实践与验证。
© 2025 news.news. All rights reserved. 0.01948 秒. v1.0.46
我的评论