时政
财经
科技
登录
#思考模型
关注
向阳乔木
3个月前
“OpenAI的计划是从GPT-5开始,把直觉模型和思考模型统一起来,由系统自己决定是否开启深度思考。” 有意思,真的从人大脑运作角度统一起来了。 系统1:快思考,传统大模型(GPT4.5、Deepseek V3 ) 系统2:慢思考,推理模型(O1-pro、Deepseek R1) 脑科学和计算机科学,互相启发~
#OpenAI
#GPT-5
#直觉模型
#思考模型
#脑科学
#计算机科学
#AI统一
#深度思考
分享
评论 0
0
orange.ai
5个月前
卧槽,我在 Google Gemini Thinking 中竟然体验到了 DeepSeek R1 Zero 的论文里提到的语言的混乱现象 出现了很多种,完全分辨不出来是什么语言... 难道 Google 这个思考模型也是靠大量 RL 搞出来的吗?
#Google Gemini
#DeepSeek R1 Zero
#语言混乱
#思考模型
#RL
分享
评论 0
0
九原客
5个月前
DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。
#DeepSeek
#思考模型
#GRPO
#Reward Model
#RL
#PRM
#MCTS
#cot训练
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞