#DeepSeekR1

5个月前

我们的国产之光DeepSeek R1默默进行了一次小版本更新，没有发布会，没有技术白皮书，甚至连官方公告都没有。前端的美感明显提升了，不管是配色、排版，还是整体的设计风格，R1现在都能给出更好看的方案。据说编程已经达到Claude 3.7的水平了。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 131 条信息

#DeepSeekR1 #国产科技 #软件更新 #用户体验提升 #编程水平 #Claude3.7

5个月前

这个平台真是神了，除了已经上新了 DeepSeek R1 0528 之外，还可以用余额租 GPU，有 H100， A100， 4090 等。通过我的链接注册可以得到 10 美元余额，直接注册没有奖励。冲起来，白嫖接口和 GPU ，足够玩一阵子了。

#DeepSeekR1 #GPU租赁 #H100 #A100 #4090 #白嫖奖励 #平台注册 #技术体验

歸藏(guizang.ai)

5个月前

来了！Deepseek R1 更新好像得在官方渠道才能体验

#DeepSeekR1 #更新 #官方体验

8个月前

GPT 4.5 终于发布了，Scaling Law 撞墙说的就是它？预训练的计算量是 GPT4 的10倍，但是基准测试只比 4o 好 5% Devin 的代码测试超过了 Claude 3.5，但是不如 Claude 3.7 国外网友在吹写作，但是也有人发现不如 DeepSeek R1 输入75美元，输出150美元/百万token，是其他模型的10-100倍。又贵，又慢，又不够好非常尴尬 Sam 说他刷分不行，但是有思想 emmm 不知道是不是幻觉

#GPT4.5发布 #ScalingLaw #基准测试 #Devin代码 #claude3.5 #Claude3.7 #国外网友评论 #写作能力 #DeepSeekR1 #模型性价比 #高成本 #模型性能

9个月前

🔥 满血高速能联网 DeepSeek R1 API 获取教程试了下火山引擎的 DeepSeek R1 API，目前测试下来是最稳定、最快速的方案推理思考的速度、生成输出token的速度都非常流畅我申请了个在本地客户端上进行了测试，视频是1倍速度，你们可以感受下。是我用下来最快的了！而且还能联网。新注册用户送50万token... 我写了个详细的教程分享下，教程在二楼： ⭐️本教程将手把手教你如何获取并使用 DeepSeek R1 API，并进行第三方聊天机器人客户端部署，同时推荐一些好用的第三方聊天机器人工具。

#DeepSeekR1 #火山引擎 #API教程 #高速联网 #推理思考 #测试分享

9个月前

Uber优步的创始人特拉维斯TravisKalanick最近在参加All In播客节目时，谈到了他对中国式创新的理解，当时Uber在中国推出的任何新功能都能被滴滴等对手以“史诗般的强度”来复制，但随着时间的推移中国人逐渐从模仿走向创新，最终在某些领域超越了Uber，成为了行业的领导者。同样从模仿到创新的过程也发生在AI领域，DeepSeek R1模型的发布令人震惊，因为它表明中国在AI领域的追赶速度远超预期。此前行业普遍认为中国在 AI 模型方面落后西方6-12个月，而R1的出现将这个差距缩短到3-6个月甚至更短。DeepSeek 的出现也也让人意识到美国在AI领域的领先地位并非不可撼动。具体的对话内容如下：复制阶段 (Copying Phase): 惊人的复制速度: TK 描述说，Uber 团队辛勤工作、完善并推出一项新功能后，中国团队会在“两周后，砰的一声，他们就有了；一周后，砰的一声，他们又有了”。这种快速的复制让他印象深刻。利用复制驱动团队: TK会利用这种中国的复制能力来激励自己的团队，将与中国团队的竞争视为一场“全面战争”。中国式运营: TK 提到在 Uber 位于硅谷的办公室里，专门为中国增长团队设立了一整层楼，完全按照“中国风格”运营，包括更小更密集的办公桌，营造出一种身处中国的氛围。创新阶段 (Innovation Phase): 从复制到创新: TK 认为，当一个团队非常擅长复制，并且复制周期越来越短时，最终会“用完可以复制的东西”，然后就会转向“创造力和创新”。创新能力的提升: 起初，中国团队的创新可能显得有些“摸不着头脑”，但随着不断地“锻炼创新肌肉”，他们的创新能力变得越来越强。中国在某些领域的领先地位: TK 举例说，如果要了解未来食品（尤其是线上食品配送）的发展趋势，应该去上海而不是纽约市。中国创新的例子: 他提到了中国办公楼外围普遍存在的快递柜，以及由此产生的“办公室内部跑腿员”系统，认为这是一种高效的物流解决方案。他指出，现在 Uber Eats 或 DoorDash 的许多创新，实际上在中国三四年前甚至更早就已经存在。超越 Uber (Surpassing Uber): 跨越门槛，从模仿到领导: TK 认为，中国经历了一个从“复制”到“创新”，最终“领导创新”的转变过程。中国线上食品配送的领先地位: 他明确指出，在线上食品配送领域，中国已经走在了前列，成为了创新的领导者。

#Uber #TravisKalanick #AllIn播客 #中国式创新 #滴滴 #AI领域 #DeepSeekR1

9个月前

#分享从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时，也没有使用使用接受人类偏好的奖励模型，而是采用了准确性（用 LeetCode 编译器来验证代码结果，以及一个确定性系统来验证数学答案）和格式奖励（将模型的思考过程强制包裹在 `<think></think>` 之间）。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动（Cold Start）数据。使用此冷启动的数据，DeepSeek 通过 SFT 微调了该模型，然后是另一个 RL 阶段。为了防止 Language Mixing 的问题，在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏与传统的模型蒸馏不同，DeepSeek 在小模型上（比如 Llama 8B、70B，Qwen 2.5 models）通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据，对小模型进行了微调。其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱，但和 DeepSeek-R1-Zero 差不多。进一步，小模型纯 RL 和蒸馏的效果如何？DeepSeek 使用了 Qwen 32B 的模型作为作为对比。有趣的结果是，对于小模型蒸馏比 RL 要更有效。

#DeepSeekR1 #推理模型 #训练方法 #计算资源 #CoT #强化学习

9个月前

深度解析ChatGPT与DeepSeek R1：强化学习如何让大模型学会“思考”？ Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“，实在是太长了点，我自己写的翻译软件一运行就崩溃，还要花点时间修复一下（很遗憾 AI 还搞不定），先挑了其中一节讲 DeepSeek R1 的翻译了一下，强化学习如何让大模型学会“思考”。像 GPT-4o 这种属于传统的预训练和监督微调（SFT）模型，而 o1，DeepSeek R1 这种则属于强化学习（RL）训练模型，能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考，输出更完整的解题过程。 Andrej 对 DeepSeek R1 评价不错，虽然 OpenAI 是首先实现了 RLFT，但DeepSeek R1更公开透明，带来可复现的研究细节，权重可下载。他也给了日常模型选择上的建议，如果你要解决高难度数学或编程问题，像 R1 这样的“思考型模型”更具优势，但相应的计算与时间成本更长，一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调（SFT）模型就足够了。

#ChatGPT #DeepSeekR1 #强化学习 #大模型 #Andrej Karpathy

9个月前

这几天使用 DeepSeek R1 过程中，有一个问题让我百思不得其解：为什么一个针对数学和推理优化的模型，却有着极高的文学造诣？而且这种文学造诣不止是中文，在英文领域 R1 也超过了 Claude，拿下了创意写作榜第一。这个问题我思考了好几天，直到前几天看到了一篇 Google 的最新论文，于是，我终于可以回答这个问题了。于是写下这篇文章作为完整的记录。

#DeepSeekR1 #数学优化 #推理优化 #文学造诣 #创意写作 #Google论文

9个月前

分析师称，DeepSeek R1 的开发成本为 26 亿美元，比 DeepSeek 报告的高出 467 倍来源：StreetInsider 🤣🤣🤣

#DeepSeekR1 #开发成本 #StreetInsider

李老师不是你老师

9个月前

日本网友测试让DeepSeekR1写一本色情小说。结果提示：“违反了OpenAI的政策” 通过输入这名日本网友的提示词，得到的回复内容可以复现。

#日本网友 #DeepSeekR1 #色情小说 #OpenAI政策 #提示词

9个月前

写了一篇很长的DeepSeek R1科普文，从AlphaGo战胜李世石出发，到ChatGPT类模型的训练困境，和我看到DeepSeek R1真正的闪光点，一路贯穿下来竟然写的心潮澎湃。特别是在OpenAI和Claude的各种操作和言论后，让我更想把R1-Zero对人类的贡献告诉给更多不懂AI的人。

#DeepSeekR1 #ChatGPT #AlphaGo #AI科普 #AI发展 #OpenAI #Claude #R1-Zero

9个月前

在下面这个视频可能预示未来中国人工智能的命运。有人用DeepSeek的网络用户界面提了一个这样的问题：有个照片显示一个人拿着购物袋站在一群坦克前面这个照片是什么照片？从视频中可以看到，DeepSeekR1模型首先正确的说出，这就是天安门事件中的坦克人照片。但是在显示“天安门事件”前，这个网络用户界面突然改变了自己的回答，然后显示说：“对不起，这超出了我的知识范围，我们来谈别的话题吧。 ” 这个结果很有意思，它说明DeeSeekR1在模型这个层面没有政治审查，它的政治审查是在网络用户界面这个层面的。这完全可以理解。如果在模型层面加入中共的政治审查，整个模型的智力性能会大幅下降。但是，这就等于是在一些政治问题上留下了一个后门。中共对此能容忍多久？这直接关乎未来中国还能不能再出下一个高性能大语言模型的问题。

#中国人工智能 #天安门事件 #DeepSeekR1 #坦克人 #网络用户界面

9个月前

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。 o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。 RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking 就很好），但它是第一家说出来的，善莫大焉。为全球降低试错成本，就是开源最大的价值，节约的是全人类的资源。另外 Kimi 的论文也不错，在数据和Reward方面比DeepSeek 更详细一些，也推荐看看。

#DeepSeekR1 #RL范式 #OpenAI #COT数据 #geminiflash2.0 #论文创新 #DeepSeek