时政
财经
科技
登录
#计算资源
关注
蓝点网
3周前
#OpenAI 推出新旗舰推理模型 o3-pro,利用更多计算资源进行深入思考提供更准确的回答。 模型在数学、科学、编程方面表现优异,在清晰度、全面性、指令遵循性和准确性方面的评分也更高,缺点是响应时间更长。即日起 ChatGPT Pro 和 Team 及 API 开发者可使用该模型:
#OpenAI
#新旗舰模型
#O3-Pro
#人工智能
#深度学习
#计算资源
#ChatGPT Pro
#API开发
#技术创新
分享
评论 0
0
nazha
4个月前
#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时,也没有使用使用接受人类偏好的奖励模型,而是采用了准确性(用 LeetCode 编译器来验证代码结果,以及一个确定性系统来验证数学答案)和格式奖励(将模型的思考过程强制包裹在 `<think></think>` 之间)。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动(Cold Start)数据。使用此冷启动的数据,DeepSeek 通过 SFT 微调了该模型,然后是另一个 RL 阶段。为了防止 Language Mixing 的问题,在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏 与传统的模型蒸馏不同,DeepSeek 在小模型上(比如 Llama 8B、70B,Qwen 2.5 models)通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据,对小模型进行了微调。 其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱,但和 DeepSeek-R1-Zero 差不多。 进一步,小模型纯 RL 和蒸馏的效果如何?DeepSeek 使用了 Qwen 32B 的模型作为作为对比。 有趣的结果是,对于小模型蒸馏比 RL 要更有效。
#DeepSeekR1
#推理模型
#训练方法
#计算资源
#CoT
#强化学习
分享
评论 0
0
小互
5个月前
微软在 Azure AI 和 GitHub 上提供 DeepSeek 的 R1 模型 这意味着企业和开发者可以更方便地集成和部署这个 AI 模型,无需自己搭建复杂的计算资源。 Azure 提供了一键部署,开发者可以快速测试和集成 AI 模型。 微软还将很快提供一个精简版、更小的 R1,以便在 Copilot Plus PC 上本地运行。
#微软
#Azure AI
#DeepSeek
#GitHub
#R1模型
#企业集成
#开发者
#AI模型部署
#计算资源
#一键部署
#Copilot Plus PC
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞