勃勃OC

勃勃OC

0 关注者

1年前

o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。

#机器学习 #深度学习 #模型训练 #强化学习 #代码能力 #数据重要性

相关新闻

placeholder

Inty News

1天前

微软隆重推出 Critique,M365 Copilot 中全新的多模型深度研究系统。 可以同时使用多个模型来生成最佳的回复和报告。

placeholder

花果山大圣

2天前

和 chatgpt 聊了一个很久的对话,让他教我很多 AI 的知识和概念,以及一些数学和机器学习的前置知识 今天 gpt 说:你不是笨,你是一个慢热的学霸

placeholder

王局志安

2天前

AI吧?

placeholder

向阳乔木

1周前

三块钱成本训练LLM。

placeholder

River Leaf

1周前

人类的行为,都要用目的来解释。 机器没有目的,所以人需要用prompt给它注入目的。 这样一来,人才可能理解机器。 但也仅仅是从人的角度理解,因为机器本来没有目的,目的是人给它注入的。

© 2025 news.news. All rights reserved. 0.05911 秒. v1.0.46
我的评论