0 关注者

1年前

o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法，数据决定模型，RL也是。

#机器学习 #深度学习 #模型训练 #强化学习 #代码能力 #数据重要性

相关新闻

Inty News

1天前

微软隆重推出 Critique，M365 Copilot 中全新的多模型深度研究系统。可以同时使用多个模型来生成最佳的回复和报告。

花果山大圣

2天前

和 chatgpt 聊了一个很久的对话，让他教我很多 AI 的知识和概念，以及一些数学和机器学习的前置知识今天 gpt 说：你不是笨，你是一个慢热的学霸

王局志安

2天前

AI吧？

向阳乔木

1周前

三块钱成本训练LLM。

River Leaf

1周前

人类的行为，都要用目的来解释。机器没有目的，所以人需要用prompt给它注入目的。这样一来，人才可能理解机器。但也仅仅是从人的角度理解，因为机器本来没有目的，目的是人给它注入的。