时政
财经
科技
登录
#CoT
关注
Tom Huang
1个月前
这个也太酷了!支持本地部署,字节跳动刚刚宣布发布了一款 7B 的多模态模型⚡️ 支持思维链思考和生成图片,并且支持支持自然语言编辑能力,在开启 CoT 的基础上,性能超越 Gemini-2-exp 的生图能力 开源地址 👉
#字节跳动
#7B多模态模型
#思维链
#图像生成
#CoT
#Gemini-2-exp
#开源
分享
评论 0
0
𝗖𝘆𝗱𝗶𝗮𝗿
3个月前
Manus 爆火之后,我们做了一套框架来验证这件事儿的可行性,就像我们 CTO 说的,技术是没有护城河的。我一直觉得,只要在 AI 这个赛道,应用层不是难事儿。 这套框架基本原理就是:CoT + DoT + Model + Agnets + Artifacts 完成,其实我一直在思考,Sonnet3.7 ReFlect 这么强,到底要不要做用户侧 CoT! ○ 用户提问(通过 Query扩写拓展) ○ 条件思考(通过 CoT 激活反问机制) ○ 调用模型(通过 Sonnet3.7 发散推理) ○ 思维图序(通过 DoT ≈ DAG + ReFlect 不断循环节点反思,直到对单节点结果满意) ○ 调用代理(激活 Computer/Browser Use 针对 DoT 处理) ○ 产出内容(根据 DoT 产生的最终结果生成报告) ○ 动态页面(通过 产生的多模态报告,调用 Artifacts 来生成可视化页面) 以上是 Juchats Team 的一些思考!
#Manus
#ai赛道
#技术护城河
#应用层
#CoT
#DoT
#model
#Agents
#Artifacts
#Sonnet3.7 ReFlect
#用户侧
分享
评论 0
0
nazha
4个月前
#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时,也没有使用使用接受人类偏好的奖励模型,而是采用了准确性(用 LeetCode 编译器来验证代码结果,以及一个确定性系统来验证数学答案)和格式奖励(将模型的思考过程强制包裹在 `<think></think>` 之间)。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动(Cold Start)数据。使用此冷启动的数据,DeepSeek 通过 SFT 微调了该模型,然后是另一个 RL 阶段。为了防止 Language Mixing 的问题,在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏 与传统的模型蒸馏不同,DeepSeek 在小模型上(比如 Llama 8B、70B,Qwen 2.5 models)通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据,对小模型进行了微调。 其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱,但和 DeepSeek-R1-Zero 差不多。 进一步,小模型纯 RL 和蒸馏的效果如何?DeepSeek 使用了 Qwen 32B 的模型作为作为对比。 有趣的结果是,对于小模型蒸馏比 RL 要更有效。
#DeepSeekR1
#推理模型
#训练方法
#计算资源
#CoT
#强化学习
分享
评论 0
0
Simon
5个月前
R1 比 O1 真正优秀的地方在输出了CoT,让人感觉很厉害很值得信任。 如果把CoT禁掉,只看结果的话。可能和o1一样,用得人也不是那么多了
#R1
#O1
#CoT
#信任
#输出
#使用者
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞