首页点击榜热搜榜通知我的

热门事件

俄乌战争专题

特朗普，马斯克相关事件跟踪

巴以冲突最新进展

尹锡悦弹劾案全纪录

比亚迪”黑奴工”事件

香港47人案

各种举报事件汇总

AI热点追踪

加密货币热点跟踪

推荐信息源

网易新闻-红星新闻

#Reinforcement Learning from Human Feedback

2025-01-27 21:15:06

我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈 Deepseek-R1这次的训练，仅利用了rule-based outcome reward，也就是数学题答案对错/测代码能不能跑通，训练出来了超强的逻辑，在math/c

#OpenAI #DeepSeek #RLHF #Reinforcement Learning from Human Feedback #rule-based outcome reward #逻辑能力 #math/c

热搜榜

24小时点击排行

1

春运期间三峡枢纽客货运量实现双增长

2

联大投票后，武契奇道歉：不该投赞成票

3

美法领导人上演“膝盖外交”，特朗普马克龙拍来拍去

4

楼阳生、王蒙徽，获任新职

5

学校回应体育老师上课抽学生耳光学生还手后双方发生扭打：涉事老师已道歉

6

中国代表：期待国际社会为推动乌克兰危机政治解决创造有利氛围

7

商务部新闻发言人就欧盟第16轮对俄制裁列单中国企业和个人事答记者问

8

欧盟第16轮对俄制裁列单中企和个人，商务部回应

9

特朗普“都要” 欧盟也想要美欧“合伙”瓜分乌克兰矿产资源

10

你的民若得罪你（世上没有不犯罪的人），你向他们发怒，将他们交给仇敌掳到仇敌之地，或远或近，他们若在掳到之地想起罪来，回心转意，恳求你说：『我们有罪了，我们悖逆了，我们作恶了』他们若在掳到之地尽心尽性归服你，又向自己的地，就是你赐给他们列祖之地和你所选择的城，并我为你名所建造的殿祷告，求你在天上你的居所垂听他们的祷告祈求，为他们伸冤；饶恕得罪你的民，赦免他们的一切过犯，使他们在掳他们的人面前