时政
财经
科技
虚拟货币
其他
登录
#DeepSeek
关注
LIN WEI
1天前
还是我爸先进,半年前就和我聊过 deepseek 的事了,这次回家就和我聊稳定币,让我 “多关注下区块链”,现在国家要在香港搞稳定币试点,这东西一旦搞起来,就会带来 “翻天覆地的变局”,所以要让我 “可以深入了解下,不要掉队”
币圈:山寨币盼涨,机构牛再现?· 4479 条信息
#DeepSeek
#区块链
#稳定币
#香港
#国家试点
分享
评论 0
0
LIN WEI
1天前
机场候机时边上有父子两,儿子开着笔记本写代码,爹在一旁边看边问“你们搞得这个和 ai 有什么关系吗?和现在那个 deepseek 有关吗?” 儿子说 “没有” 爹又问 “那个什么 deepseek 好像原来是做量化的,你们做的是不是和量化很像啊?” ,“不像”,爹一边听着一边皱着眉头,似乎很担心自己的儿子没跟上时代
#父子
#程序员
#DeepSeek
#AI
#焦虑
分享
评论 0
0
WY
2天前
DeepSeek又一次引领世界 前几天DeepSeek发布了V3.2-Exp实验性模型,虽然这次的发布没有引起太大的声量,但我仔细研究了一下,觉得实际上是又一次重大突破,很可能DeepSeek再一次在大模型高性价比技术上引领了世界。 通过全新的DeepSeek Sparse Attention(DSA)稀疏注意力机制,V3.2-Exp将大模型的推理成本从平方级直接降至接近线性。传统注意力机制的计算复杂度为O(L²),而DSA将核心注意力的计算复杂度降低到了O(Lk)(其中k=2048,对大型任务来说远远小于L也就是输入和输出的token数)。在H800 GPU集群上的测试显示,随着上下文长度的增加,V3.2-Exp的推理成本曲线几乎呈现为常数级(有人测算过成本曲线的斜率只有平方级的1/20)。 实现这一点的思路是,先通过一个叫做闪电索引器(lightning indexer)的组件快速选择需要参与后续核心注意力计算的最多2048个token。闪电索引器的计算复杂度仍然是O(L²),怎么可能实现接近线性的成本?秘密在于数据精度的创新。DSA将索引器内的Q、K矩阵从BF16精度降为FP8精度,虽然维度并未减少,但FP8的使用大幅减少了带宽占用,提高了寄存器缓存命中率。在GPU的Tensor Core加速单元面前,矩阵运算本身几乎是"零成本"的,真正的瓶颈在于数据传输。通过让数据占用更少的位数,一次就能传输更多参数,实现了对硬件性能的极致压榨。 这个方案再次体现了DeepSeek团队对硬件相关工程技术的深厚功底。 再看国际顶级模型的定价策略,能更明白DeepSeek这次创新的价值。Gemini 2.5 Pro采用了复杂的阶梯定价:输入token在20万以下时每百万1.25美元,超过20万则涨到2.50美元;输出token同样分段,20万以下10美元,超过则涨到15美元。最新发布的Claude Sonnet 4.5(比DeepSeek v3.2还晚)对超长上下文同样采取了加价措施。这说明这些模型的推理成本仍然与输入输出长度高度相关,长文本处理的单位成本远高于短文本,所以必须通过差异化定价来覆盖成本。 所以很可能DeepSeek做到了Gemini和Claude这些顶级模型都没做到的事。 推理成本接近线性,对AI应用开发意味着什么? 线性成本对大模型最常见的多轮对话场景的意义可能是革命性的。如果推理单位成本是上下文长度的平方级,那么对话应用的成本就是对话轮次的立方级,20轮对话和10轮对话相比成本就是8倍。如果推理单位成本降到和上下文长度成正比,对话应用的成本就降到了对话轮次的平方级。这看起来似乎还是很高,但我们可以认为对话应用的价值和对话轮次也是平方级,因为第N次对话使用了前N-1次对话的信息,创造的单位价值就更大。平方级的价值和平方级的成本,这个过程就可以长期持续下去;平方级的价值要付出立方级的成本,就无法长期持续。 过去开发者面对超长文档时,不得不将其切分成小块,分别送入模型处理,最后再想办法把结果汇总起来。这个过程不仅增加了开发复杂度,还经常导致上下文丢失和理解偏差。但有了接近线性成本的模型,就可以直接把整份文档一次性喂给AI,让它在完整理解的基础上进行更新,既准确又高效。 在法律和医疗等专业领域,这种改变就很关键。比如律师需要AI分析一个复杂案件的全部卷宗材料,可能涉及几百页的法律文书、证据材料和判例引用。如果必须切分处理,很可能遗漏关键的关联信息;而一次性处理全部材料,AI就能发现不同文档之间的矛盾和逻辑链条。医疗领域同样如此,一个患者的完整病历可能包括多年的就诊记录、检查报告和用药历史,只有完整分析才能给出准确的诊断建议。 对于AI搜索和智能助手应用,线性成本也打开了新的可能性。传统的AI搜索工具在处理用户查询时,往往需要在检索数量和成本之间做权衡——检索太多相关文档会导致成本飙升,检索太少又可能遗漏重要信息。但如果推理成本接近线性,就可以放心地检索更多文档,让AI在更广阔的知识范围内给出答案。 当OpenAI等巨头还在依靠堆砌算力来解决问题时,DeepSeek用更聪明的方法找到了一条新路。从V3的低成本训练到R1的开源推理能力,再到V3.2的线性成本推理,DeepSeek一次次向世界展示了中国实力。可能也是因为DeepSeek v3.2的发布,才使得一贯反华的Anthropic也不得不在节前发布Claude Sonnet 4.5向我们国庆献礼。
Google Gemini 2.5发布引发AI模型性价比热议· 204 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 527 条信息
#DeepSeek
#V3.2-Exp
#稀疏注意力机制
#线性推理成本
#国产AI
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4天前
之前就判断deepseek下个版本会在长上下文上突破,估计有戏
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#DeepSeek
#长上下文
#突破
#AI
#乐观
分享
评论 0
0
bmwmengwei
4天前
国行苹果电脑上用 DeepSeek 补齐 Xcode 26 的 AI 能力
#苹果电脑
#DeepSeek
#Xcode 26
#AI能力
#国行
分享
评论 0
0
歸藏(guizang.ai)
4天前
Deepseek 又有更新,更新到了 3.2 Exp 主要的更新内容就是降价,再次降价超过 75%,输入输出都快要一样价格了,真离谱啊 原因是实现了细粒度的超稀疏注意力机制,在不降低模型输出质量的前提下实现了训练推理成本的大幅下降
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#DeepSeek
#降价
#超稀疏注意力机制
#AI模型
#成本下降
分享
评论 0
0
砍砍@标准件厂长
4天前
写了个脚本 把 Mac 上的 iOS/Xcode 项目打包映射进虚拟机去跑 claude 和 deepseek。yolo~
AI编程工具激战:Claude Code、Gemini Cli崛起· 914 条信息
#iOS/Xcode项目
#Mac
#Claude
#DeepSeek
#虚拟机
分享
评论 0
0
orange.ai
4天前
价格屠夫 DeepSeek 又出手了,虽然性能有一点点下滑,但这价格就像蜜雪冰城让人无话可说。 新模型使用 DeepSeek Sparse Attention(DSA) 首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#DeepSeek
#价格屠夫
#稀疏注意力
#性价比
#AI
分享
评论 0
0
Tony出海营销
4天前
妹的,这个假号吓我一大跳,以为DeepSeek假期又放 V4
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#DeepSeek
#假期
#V4
#假号
#吓一跳
分享
评论 0
0
砍砍@标准件厂长
5天前
deepseek 的这个 terminus 模型真的可以 一次就能把我的命令基本跑通 tiny bug 提点一下也能修好 实际体验在 swift 和客户端开发上面已经和 sonnet 不差上下了
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#DeepSeek
#terminus模型
#SWIFT
#客户端开发
#sonnet
分享
评论 0
0
勃勃OC
6天前
从今年一月底,NVDA受DeepSeek影响暴跌 再到3月底,受贸易战影响暴跌 可以明显看到一个规律: 市场是愚蠢的 删掉App的人 最聪明 这个帖子我将永远置顶 我们10年后财务自由 巅峰相见
美股新行情:就业数据下修引恐慌· 206 条信息
#NVDA暴跌
#DeepSeek
#贸易战
#市场愚蠢
#财务自由
分享
评论 0
0
铁锤人
1周前
Qwen 3 Max将会牛逼过国产之光DeepSeek 因为阿里仅仅2 年就卷了N多模型,具体多少看图 海外大V测评用来写代码十分好用 - 重构能力很强 - 修复 Bug 能力牛逼 - 工具调用也不错 个人认为是目前最强大的模型之一👍 Claude code有力替代品 我在下面放了个现在能用上的平台,有免费额度👇🏻 你们用用觉得如何?
#Qwen 3 Max
#DeepSeek
#代码能力
#模型测评
#免费额度
分享
评论 0
0
Barret李靖
1周前
借助 LLM 学习 LLM,边学边问😃,《图解DeepSeek技术》这本小册子,不到一百页,把推理大模型的基本原理、MoE 架构设计和 R1 训练过程等几个东西讲清楚了,值得读两遍。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#LLM
#DeepSeek
#MoE
#推理大模型
#技术
分享
评论 0
0
A股证券交易员
1周前
【DeepSeek线上模型升级:当前版本号 DeepSeek-V3.1-Terminus】记者获悉,DeepSeek线上模型已升级,当前版本号 DeepSeek-V3.1-Terminus。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#DeepSeek
#V3.1-Terminus
#模型升级
分享
评论 0
0
歸藏(guizang.ai)
1周前
Deepseek 果然一到节假日就开始升级 刚才官方群通知模型已经从 V3.1 升级到 V3.1-Terminus 这个模型名字,难道说下次就是 V4 了?
深度学习模型升级引发AI能力大跃进,行业迎新变革· 96 条信息
#DeepSeek
#V3.1-Terminus
#模型升级
#节假日
#期待V4
分享
评论 0
0
📦Acbox
1周前
到底是什么人还在吹deepseek
#DeepSeek
#质疑
#负面评价
分享
评论 0
0
Geek
1周前
所以认为 DeepSeek 还不够安全,华为与浙江大学合作,基于华为昇腾芯片搞了个安全加强版的 DeepSeek-R1-Safe,构建符合法律法规与核心价值观的中英文双语安全语料,实现了对有毒有害言论、政治敏感内容等14个维度的全面防护,有害问题防御成功率近100%…… 我靠~
DeepSeek数据泄露:德国下架,信任崩盘· 284 条信息
中国DeepSeek引发美国科技股暴跌事件· 136 条信息
#DeepSeek
#华为昇腾芯片
#安全
#政治敏感
#有害言论
分享
评论 0
0
新浪新闻-新浪网
2周前
DeepSeek首度公开R1模型训练成本仅为29.4万美元,“美国同行开始质疑自己的战略”
【文/观察者网王一】DeepSeek今年年初以高性价比、高性能、开源驱动等特点惊艳了世界。其团队近日在英国《自然》杂志发..._新浪网
DeepSeek数据泄露:德国下架,信任崩盘· 284 条信息
中国DeepSeek引发美国科技股暴跌事件· 136 条信息
#DeepSeek
#开源
#高性能
#《自然》杂志
#AI
分享
评论 0
0
Inty News
2周前
DeepSeek被曝对台湾国和新疆(东突厥斯坦)议题植入漏洞 美国安全公司研究显示,中国DeepSeek AI在生成涉及台湾、维吾尔议题的代码时,缺陷率显著升高,训练数据受中国立场影响。专家警告AI或遭地缘政治武器化,呼吁加强透明与国际监管。
#DeepSeek
#台湾
#新疆
#地缘政治武器化
#AI监管
分享
评论 0
0
新浪新闻-第一财经网
2周前
DeepSeek首次回应“蒸馏OpenAI”质疑
9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究..._新浪网
#DeepSeek
#梁文锋
#DeepSeek-R1
#人工智能
#科技
分享
评论 0
0
中国政经事实ChinaFacts
2周前
First peer reviewed study. deepseek总是在用一些超长的眼光做一些超越同业的事业,即使在今年全球出圈后充满诱惑今天依然如此。 非常看好他们,中国企业乃至当下全球ai行业中少见的纯粹的长期主义。
DeepSeek数据泄露:德国下架,信任崩盘· 284 条信息
中国DeepSeek引发美国科技股暴跌事件· 136 条信息
#DeepSeek
#长期主义
#中国企业
#全球ai行业
#积极
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
LLM预训练的成果应该由全人类共享:包括会话理解与推理思考。 由梁文锋把DeepSeek的开源成果发Nature想到的。
谷歌Deep Research:AI操作系统雏形?· 79 条信息
#LLM
#预训练
#开源
#DeepSeek
#梁文锋
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
Deepseek的GRPO(Group Relative Policy Optimization )算法,还是非常有效的long CoT的RL方法,根据最后结果只和之前的相比更趋近目标,就能得到奖励,非常smart,在reward hack和RL效能之间取得平衡。 姚顺雨说起来只是个搞prompt的,用Tree of Search解决NTP基础上的有一定结构的token块的搜索问题。 语言真是太神奇了。符号表征和结构解构能力都有无穷可能。
#DeepSeek
#GRPO算法
#long CoT
#RL方法
#姚顺雨
#Tree of Search
#NTP
#token块搜索
分享
评论 0
0
Herman Jin
2周前
你们吹捧Deepseek我泼冷水,你们吹中国AI我还是泼冷水 Deepseek连training门在哪都没找到,连抄NV的算力都拿不到 寒武纪下单片的零头也流不出来,华为片连A100也跑不过 中国晶圆厂跟TSMC比连受精卵都算不上 period
DeepSeek数据泄露:德国下架,信任崩盘· 284 条信息
中国DeepSeek引发美国科技股暴跌事件· 136 条信息
#DeepSeek
#中国AI
#负面评价
#算力差距
#技术落后
分享
评论 0
0
Herman Jin
2周前
来了一阵吹中国科技公司AI/芯片的牛逼风 记得我当时点评deepseek的话吗?时间很快会证明他们一捅就破的谎言
DeepSeek数据泄露:德国下架,信任崩盘· 284 条信息
中国DeepSeek引发美国科技股暴跌事件· 136 条信息
#中国科技
#AI/芯片
#DeepSeek
#谎言
#负面
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞