时政
财经
科技
虚拟货币
其他
登录
#DeepSeek
关注
德潤傳媒
1天前
DeepSeek缺少芯片支持推遲發布新模型
#DeepSeek
#芯片
#模型发布推迟
分享
评论 0
0
夏雨婷
1天前
有时候觉得华为的硬件基本是负价值,比如就DeepSeek这个事情,全公司那么多顶级的LLM专家不知道光工资和社保要交多少,全在那陪着华为浪费时间白白错过市场先机在那消耗DeepSeek来之不易的品牌价值,损失价值不知道多少万块H100了。
#华为
#DeepSeek
#LLM专家
#市场先机
#负价值
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3天前
看字节seed这研究趋势,不会截胡了DeepSeek的下一个突破吧?🤔 北京大学、ByteDance Seed和香港大学研究:SWE-Swiss——一个用于构建人工智能的完整训练“公式”,用于解决软件工程任务。 基于此,他们的32B参数SWE-Swiss-32B在SWE-bench Verified上达到了60.2%,为其尺寸设定了新的SOTA。 这证明,通过合适的方法,中型模型可以超越其重量。
#字节Seed
#DeepSeek
#SWE-Swiss
#软件工程任务
#SOTA
分享
评论 0
0
yihong0618
5天前
好多人说 DeepSeek 不行了,但是半年多以前的 R1 依然在大多数模型发布的 benchmark 里,这不恰恰说明半年前的模型依然能打么?
深度学习模型升级引发AI能力大跃进,行业迎新变革· 29 条信息
#DeepSeek
#R1模型
#Benchmark
#模型评估
#技术讨论
分享
评论 0
0
BBC News 中文
6天前
专家称,DeepSeek对美国科技的撼动并未持久。这部分归因于营运挫折,也源于来自美国与中国公司的激烈竞争。该公司的下一代产品DeepSeek-R2据报已延迟原因之一是高端晶片短缺。
DeepSeek数据泄露:德国下架,信任崩盘· 163 条信息
中国DeepSeek引发美国科技股暴跌事件· 96 条信息
#DeepSeek
#美国科技
#竞争
#芯片短缺
#延迟
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1周前
GPT-5在Altman的千hype万hype下发布了。。。 读完GPT-5的Model Card,我拍案叫绝。那个神秘的“路由器”,竟是解开最近我脑子里所有LLM谜团的钥匙。 串起了The Information爆料的“o3降智门”,Wired报道的Anthropic“斩首式”封号,以及谷歌在奥数解题上的痛苦挣扎。这一切,都直指AI正在上演的“左右脑人格分裂”大戏,同时不能不注意的是,上个月Anthropic为了模型可解释性组建了AI精神病学研究团队。 而当所有人都盯着这出戏时,沉默的DeepSeek,又在为牌桌下的物理规则,下着怎样的赌注?本文将试图带你勘破迷局,直抵AI范式迁移终极真相的思考。
#GPT-5
#Altman
#AI人格分裂
#DeepSeek
#AI范式迁移
分享
评论 0
0
Geek
1周前
我脑补今天国内开源大语言模型智谱、千问、Kimi、DeepSeek团队满怀期待的下载 GPT-OSS 使用后,一脸懵逼的问这玩意研发花了多少钱?? 旁边人: 数十亿美元研究的成果🤣
#开源大语言模型
#gpt-oss
#智谱
#千问
#Kimi
#DeepSeek
#数十亿美元
#懵逼
分享
评论 0
0
dontbesilent
1周前
被问了 N 次:哪里可以买到「AI 写文案」的智能体 我说这个东西不存在,不同的文案要用不同的工具去写,不一定是智能体 就算是智能体,也不是一个智能体 而且在你明确表述出你需要什么样的文案之前,不管是不是智能体都做不出来 但是就在我解释 ⬆️ 这些有的没的的时候,有人说:我这里有「AI 写文案」智能体 什么文案都能写,使用的是宇宙最强的 DeepSeek!然后他们达成了交易 😂 挺好
#AI文案
#DeepSeek
#智能体
#文案需求
#市场营销
分享
评论 0
0
阑夕
1周前
QuestMobile的2025AI半年报出来了,国内的AI产业从统计数据来看不太理想: - 移动端和PC端两大场景AI产品的活跃用户规模双双下滑,分别少了2000万和3000万,原生App的大盘增长完全停掉了,相比之下,隔壁ChatGPT已经7亿周活,还忙着出防沉迷模式; - 为了挽尊,QuestMobile发明了一个还有增长的插件市场,比如在百度搜索时用到了AI摘要就算一个活跃,这种功能化的场景,还有5000万的增量用户; - 11亿网民,PC端的AI用户顶天也就1.8亿,这太萎靡了,这意味着基于Web的产品创新完全没有回报,只有出海一条路可走,最后大概率要在避险策略下迁址新加坡; - Kimi、文小言、纳米、星野、智谱清言、讯飞星火都上榜了用户流失的重灾区,猫箱更是跌了55%,陪伴产品的留存不忍直视; - DeepSeek的流失用户里,超过一半去了百度,AI搜索目前还是被验证的最主流需求,QQ浏览器和夸克也都是接盘DeepSeek的剩余赢家; - 夸克的月活用户平均每月打开65次,断层领先,是百度的6倍以上,微博智搜排在第2,表现同样突出; - 6月全网Token消耗量116.3万亿,差不多是去年公有云全年的量级,涨得很快,也符合预期,不过对比的话,光是Google一家今年6月就消耗了980万亿Token,口径或有差别,参考即可; - 在过亿月活级别的AI应用里,豆包是唯一一个还能有2位数增长的,11.4%的复合增长率,足够吊打所有竞品。
#AI产业下滑
#QuestMobile报告
#用户流失
#DeepSeek
#豆包
分享
评论 0
0
dontbesilent
1周前
在国内卖智能体就是提示词工程师的精神损失费 1、买家不能翻墙 2、买家不会使用任何第三方软件,下载 app 不记得应用商店密码 3、买家无法学习任何提示词技巧 4、如果你给的链接在微信打不开,那这辈子就都打不开 5、买家需要一键得到想要的结果 要在微信浏览器里面让 DeepSeek 一键出结果,一个智能体卖 3 万真不贵,这事儿和 AI 没关系
#智能体
#提示词工程师
#微信
#DeepSeek
#一键
分享
评论 0
0
大宇
2周前
chatgpt PRO的深度研究好牛,感觉比DEEPSEEK强了非常多,终于明白为什么市占率这么牛了。 但有个问题,APPLE续费时开通PRO总是提示失败,难受,没有美国卡。
#ChatGPT Pro
#DeepSeek
#市占率高
#APPLE续费失败
#美国卡
分享
评论 0
0
阿泽KK
2周前
ACL 2025 最佳论文前两天公布了,俗话说:错过ACL 2025 = 在AI 2.0时代掉队🤣 于是今天一早,在 G 老师的协助下,火速拜读了由 DeepSeek & 北大等联合发表的论文:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。 📝 一句话总结:这篇论文不仅提出了一个新的 Attention 结构,更重要的是,它为“大模型在训练和推理阶段如何高效处理长上下文”这个老大难问题,给出了一个真正可落地、可扩展的结构性解法。 𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅 01|先捋清楚:长上下文处理,难点在哪? 原始 Transformer 的 Attention 是全连接的 —— 每一个 token 都要跟前面所有 token 做一次注意力计算。 这种结构虽然简单有效,但当上下文长度从 2K 增加到 64K 时,计算量和内存需求就会指数级飙升,直接拖垮效率。 比如当前主流大模型是“自回归”地一个词一个词生成,也就是说每输出一个 token,都要重新读并计算之前所有的 token,导致 GPU 明明计算力挺强,但要一直等计算完才行 —— 这就像在做阅读理解题,每写一个字,都得从头看前面写了啥。所以写得慢,不是因为不会写,而是因为每次回看太耗时间了。 NSA 论文也指出,在处理 64K token 的长上下文时,光是 Attention 模块里的 Softmax 操作就占了70~80% 的推理延迟,很影响效率。 02|稀疏化注意力早就被提出了,为什么以前都没完美解决难题? 其实很多人早就尝试用“稀疏注意力”来减轻计算压力,比如BigBird:滑动窗口 + 全局 token + 跳跃连接、ClusterKV:对 token 做语义聚类,只关注代表性 token等等。 但这些方法基本都只能在“推理阶段”用,训练阶段模型根本学不会怎么选重点。 更致命的是:很多稀疏策略是离散不可导的,模型压根无法“学着自己调整关注重点”。 通俗点说:以前的方法更像是“临时抱佛脚看重点”,而不是“从一开始就学会划重点”。 所以模型最终也就学不到真正高效理解文本的能力,无法从根本解决长上下文的挑战。 03|NSA 的核心创新:让模型从训练第一天起就学会“划重点” 它是怎么做到的?由两大关键组成:三分支注意力机制 + 可微分门控融合。 三分支注意力机制: 1️⃣ 压缩注意力:快速扫一眼,抓全局概念。➡️ 类似于看目录、抓关键词。 2️⃣ 选择注意力:选择重要的内容看 ➡️ 类似跳读找重点,精准阅读。 3️⃣ 滑动注意力:保留局部上下文信息,确保语义连贯。➡️ 类似连着上下文看,不跳行。 可微分门控融合: 前面说的三种注意力机制并不是互斥的,而是并行存在的。然后在NSA 中每个 token 都通过一个小的门控网络(MLP)生成三个融合权重,对三路注意力输出加权平均。 这一步很关键: ✅ MLP 是可微分的,意味着这些权重是可训练的; ✅ 每个 token 都可以根据自己的上下文内容,动态决定到底用多少“扫一眼”,用多少“挑重点”,用多少“连着看”。 👉 换句话说,模型就像有了内建的“阅读策略”: 该扫一眼时扫一眼、该精准跳读时跳读、该连着读时不跳行,从头到尾都在自主划重点。 04|还有一项关键突破:硬件对齐优化 以往稀疏 Attention 最大的难点之一是:你虽然选中了 10 个重点 token,但它们分布在 GPU 内存中各个角落,导致读取时要跳来跳去,访问成本高,效率不升反降。 NSA 在执行上设计了原生的可训练稀疏 Attention 路径,并和底层硬件执行方式做了深度对齐 —— 虽然细节略复杂,但结论很清晰。 05|那实际效果怎么样?来看多个维度的评测: ❇️ 通用任务(如 MMLU、HumanEval):9个基准中7项优于全Attention ❇️ 长文本任务(如 LongBench):在64K tokens下准确率保持100% ❇️ 链式推理任务(如 AIME 数学题):在8K/16K上下文下大幅超越全Attention,推理逻辑能力更强 更重要的是:这些性能是在显著降低显存和推理延迟的同时实现的。 𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅𝌅 📍总结一下: 过去做不出NSA,是因为“划重点”的方法太随机、太粗暴,模型既学不会也算不快。 而NSA则把“划重点”变成一种可以训练的能力,还找到了让GPU快速配合的方法,真正让稀疏注意力从“理想”变成了“实用”。 如果你也对这个领域感兴趣,NSA 的论文绝对值得啃完一遍。毕竟——长上下文不是下一个挑战,而是现在的主战场。 #AI #NSA #ACL2025NLP #Studylog #DeepSeek
#ACL 2025
#长上下文处理
#稀疏注意力
#DeepSeek
#硬件对齐优化
分享
评论 0
0
dontbesilent
2周前
如果我把做知识库的过程中的通义听悟换成 eleven labs 把知识库的对话模型从 DeepSeek 换成 Gemini 再把这个知识库对接给小助理,替换掉我应该问题不大 知识库不好用都是 DeepSeek 和通义的锅
谷歌Deep Research:AI操作系统雏形?· 35 条信息
#知识库
#通义听悟
#elevenlabs
#DeepSeek
#Gemini
分享
评论 0
0
Journeyman
2周前
Deepseek的横空出世,让美国“把AI算力金融化收割全球的美梦”破灭了 “要文斗不要武斗”,中美两个超级大国的激斗, 虽然没有硝烟, 但是规模和精彩程度都是空前的
DeepSeek数据泄露:德国下架,信任崩盘· 163 条信息
中国DeepSeek引发美国科技股暴跌事件· 96 条信息
#DeepSeek
#AI算力
#中美
#竞争
#金融
分享
评论 0
0
凤凰网-凤凰网综合
3周前
DeepSeek真的不行了吗
中国DeepSeek引发美国科技股暴跌事件· 96 条信息
#DeepSeek
#负面评价
#发展困境
分享
评论 0
0
Gorden Sun
3周前
我认为是字节的豆包。 Gemini认为是月之暗面; ChatGPT认为是OpenAI,告诉他是中国公司后猜是百度; Grok认为是xAI,告诉他是中国公司后猜是DeepSeek; Claude拒绝明确回答;
#豆包
#月之暗面
#OpenAI
#DeepSeek
分享
评论 0
0
Cell 细胞
3周前
把 A 股全卖了。挑周六发消息,然后用 DeepSeek 做了预测,然后今天开盘相关股全线涨停,这玩个鸡毛,这不就是韭菜吗?这和 Trump 全家发币有啥区别?!
#A股
#DeepSeek
#涨停
#韭菜
#预测
分享
评论 0
0
网易新闻-每日经济新闻
3周前
黄仁勋力赞DeepSeek,谈华为,聊中国市场……还称与雷军合作已经很久了,现在正在共同开发人工智能、自动驾驶软件等
黄仁勋力赞DeepSeek,谈华为,聊中国市场……还称与雷军合作已经很久了,现在正在共同开发人工智能、自动驾驶软件等,雷军,中国,华为,黄仁勋,英伟达,人工智能,自动驾驶,知名企业,机器人技术
小米YU7:狂销争议与交付疑云· 42 条信息
#黄仁勋
#DeepSeek
#华为
#中国市场
#雷军
分享
评论 0
0
环球网-央视新闻客户端
3周前
黄仁勋力赞DeepSeek 对中国创新能力充满信心
AI是一个极其复杂的系统,中国的创新能力很惊人。
#黄仁勋
#DeepSeek
#中国创新
#人工智能
#技术
分享
评论 0
0
凤凰网-凤凰网综合
3周前
黄仁勋最新表态:力赞DeepSeek、华为,谈与雷军合作
#黄仁勋
#DeepSeek
#华为
#雷军
#合作
分享
评论 0
0
李老师不是你老师
3周前
网友投稿: DeepSeek现在连五一劳动节的由来都要审查,当出现美国警察和工人流血冲突,以及国际工人运动等内容后,之前生成的回答立刻被替换。
#DeepSeek
#五一劳动节
#审查
#美国警察
#工人运动
分享
评论 0
0
dontbesilent
1个月前
四大模型:豆包、DeepSeek、Monica、Gemini …… 先别急着吐槽 😄😅 如果把这个标题换成“gpt + claude + gemini + grok” 还真不如原标题赚钱
Google Gemini 2.5发布引发AI模型性价比热议· 97 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#AI模型
#豆包
#DeepSeek
#Monica
#Gemini
分享
评论 0
0
图拉鼎
1个月前
NVIDIA 市值刚刚破四万亿美元了,让我想起了半年前,当时 DeepSeek 刚出来,有很多不看好 NVIDIA 的言论,当时它的股价也在持续下跌。半年过去了,似乎答案很明显了。
英伟达市值破四万亿,AI芯片霸主地位稳固?· 34 条信息
#NVIDIA市值
#四万亿美元
#DeepSeek
#股价上涨
#人工智能
分享
评论 0
0
dontbesilent
1个月前
这次我的公众号是真的有人用 AI 了,总共几千粉,一晚上出现了几百条对话 昨天测试了 20 套提示词,把第一性原理、反事实思维、批判性思维、系统性思维的框架,揉到一起,连上我的知识库了 也用 DeepSeek 跑通了(比 gpt 差一点但是完全可用),欢迎来【公众号:dontbesilent】试用 直接在公众号对话框对话即可,比ima知识库聪明点
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#AI
#公众号
#DeepSeek
#知识库
#测试
分享
评论 0
0
网易新闻-上游新闻
1个月前
两周变卦成两天,特朗普是故意的还是不小心的?
当你不小心把deepseek叫成豆包
美欧关税战:特朗普挥舞关税大棒· 358 条信息
特朗普关税:欧盟拟反制,市场渐麻木· 1229 条信息
#DeepSeek
#豆包
#口误
#AI
#命名
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞