新浪新闻-第一财经网
1周前
新浪新闻-第一财经网
1周前
宝玉
1周前
谢嘉琪
1周前
🔥 DeepSeek震撼AI界! 以仅约 1/20 的算力成本,达到了 GPT-4 的性能水平!🚀 这一成就源于其在模型算法上的三大革新: ✨1.FP8混合精度训练 通过复杂的数学优化,用 8位浮点数 替代传统的 32位浮点数 进行训练,减少了 75%的内存需求,显著降低算力消耗,同时保持高精度性能。 ⚡2.多标记 预测系统 打破传统逐字逐句生成的低效模式,多标记预测系统允许模型一次性处理整句或多句内容,推理速度提升 2倍,准确率高达 90%,大幅提高训练与推理效率。 🧠3.专家系统 与巨型模型激活所有参数的传统方式不同,DeepSeek通过专家系统按需调用参数。在其 671亿参数 中,仅有 37亿 参数被激活以处理特定任务,显著减少计算开销。相比之下,传统模型的 1.8万亿参数 全部常驻运行,资源利用率极低。
新浪新闻-新浪网
1周前
九原客
1周前
初码
1周前
沈tong不私信
1周前
邓聿文
1周前
orange.ai
1周前
偶像派作手
1周前
新浪新闻-澎湃新闻
1周前
qinbafrank
1周前
JundeWu
1周前
很多人担心DeepSeek的低成本训练会冲击显卡市场,但我认为其实是利好 首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。 其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡,理论上效果只会更好。他本质上是一种improvement of scaling law,可以参考我下面画的不太严谨的示意图。在deepseek出来之前,其他大模型用PRM (process reward model)的时候,已经观察到scaling law失效,边际效应递减了,因为需要额外的卡训练PRM模型来监督推理过程,但是deepseek的出现重新验证了scaling law,也就是多一张卡,性能就成正比提升。这对显卡市场显然是一种利好。 另一个误区是DeepSeek做的是推理,不是训练。其实DeepSeek-R1做的是纯纯的训练,他们是通过post-training,后训练,来训练出模型有更强的推理能力,这种训练和预训练对显卡的需求没有本质区别。纯粹的推理端scaling/搜索,也就是模型自己推理多种答案,然后再挑一个最好的给你,其实现在用的不是很多,因为对用户的延迟太长了,猜测o1-pro应该是用了推理端搜索,有趣的是deepseek发现PRM (process reward model)对推理后训练虽然没用,但对推理端搜索是有用的,只不过not worth it,性价比很低。 其实未来对显卡市场和Scaling Law的最大威胁不是模型,而是数据。现有大模型已经用了几乎所有互联网数据,未来数据获取难度将指数级上升。之后很可能会遇到空有大量显卡,但没数据的窘境。
偶像派作手
1周前
王海滨的财经闲谈
1周前
BoraBora
1周前
偶像派作手
1周前
李老师不是你老师
1周前
偶像派作手
1周前
偶像派作手
1周前
迷人的小红
1周前
网易新闻-每日经济新闻
1周前
曹山石
1周前
倪爽
1周前
怎么用 AI 做反向本土化 #迷你设计课 有人挖出”硅谷“里的 Jian-Yang,拿他中国+抄袭+廉价的套路嘲笑 DeepSeek😂,这些流量号的事笑笑就算了,我得表扬 DeepSeek 解决了我的一个难题:中国化 美国用户和国内用户的喜好差别很大,比如老美略笨一点,喜欢简单直接,中国人都很聪明,相信直觉和经验…我跟国内客户沟通、定设计方案时,总需要一些国内的案例来帮助双方沟通 一般我就给 AI 一个 1000 字左右的要求,具体解释项目和我的设计思路,让 AI 给我举实际例子 每次 DeepSeek R1 推理+搜索中文网页,不仅能给出实际例子,而且连营销套路、设计黑魔法、勾人话术、操作 SOP…什么什么都不缺,出来的答案随便改改就能变成割韭菜教材😂 ChatGPT 给的例子不那么中国,有点像外国表哥说的中文,发音、造词没什么问题,说的句子、逻辑、事情…就全像老外了 我不懂 DeepSeek 的智能有多领先,这超出我知识体系了,不过在懂中国国情方面,它绝逼一骑绝尘
JundeWu
1周前