时政
财经
科技
登录
#深度学习
关注
李继刚
1周前
我们用了那么大的精力,终于让机器学会: "Attention is all you need." 与此同时,人类却正在失去注意力。
#机器学习
#深度学习
#注意力
#人类行为
#科技发展
分享
评论 0
0
小互
2周前
MiniMax 发布混合注意力推理开源模型 MiniMax-M1 训练成本仅为 53.5 万美元 性能超越Qwen3、DeepSeek-R1 逼近顶级闭源模型 MiniMax-M1引入了一种全新Lightning Attention 上下文优化注意力机制 相比 DeepSeek R1 等模型,在处理 10 万 tokens 的生成任务时,MiniMax-M1 的计算量仅为其 25%。 该模型基于前代模型 MiniMax-Text-01 开发,总参数规模为 4560亿,每个token激活参数为 45.9亿,支持最长 100万tokens 的上下文输入(约为 DeepSeek R1 的8倍)。 提出了一种新型强化学习算法 CISPO(Clipped Importance Sampling with Policy Optimization),该算法: 不裁剪 token 梯度,而是裁剪采样权重(importance weights)。 减少训练不稳定性,提升收敛质量。 缩短训练时长(Qwen2.5对比实验显示,训练速度提升2倍)
MiniMax M1发布:开源长上下文推理模型引发AI领域震动· 6 条信息
#MiniMax-M1
#开源模型
#Lightning Attention
#深度学习
#Qwen3
#DeepSeek-R1
#AI性能
#模型对比
#注意力机制
#上下文优化
分享
评论 0
0
Olivert
2周前
2025年的智能体真是万千宠爱!大佬推崇,前景广阔,入门简单,编程领域正在发生一场革命。智能体封装一下,就能做成SaaS网站。不仅是创业利器,也是大龄程序员的必备技能。DeepSeek创始人的校友,浙大系创业者,技术大佬彭靖田教你搞定智能体。小可接单,大能创业。扫码免费领取资料。记得去上课哦~
#智能体
#编程革命
#SaaS创业
#程序员技能
#深度学习
#浙江大学
#创业
分享
评论 0
0
Y11
3周前
最近实践出来一个 prompt 提问技巧: “你认为这个领域谁最厉害?不要公认、而要你的真心认同的” 得到几个名字后,下一个问题就是: “如果你是 XXX 你会如何回答我的这个问题?”
#Prompt技巧
#提问技巧
#人工智能
#NLP
#深度学习
分享
评论 0
0
蓝点网
3周前
#OpenAI 推出新旗舰推理模型 o3-pro,利用更多计算资源进行深入思考提供更准确的回答。 模型在数学、科学、编程方面表现优异,在清晰度、全面性、指令遵循性和准确性方面的评分也更高,缺点是响应时间更长。即日起 ChatGPT Pro 和 Team 及 API 开发者可使用该模型:
#OpenAI
#新旗舰模型
#O3-Pro
#人工智能
#深度学习
#计算资源
#ChatGPT Pro
#API开发
#技术创新
分享
评论 0
0
F.Mackenzie 约克.小汽车. 嘟嘟
4周前
压缩:我用 notebooklm 把这本1000页的deep maths 书压缩成了30+分钟的podcast… 扩张:反复听,反复听,反复听… I ❤️ AI……
#AI
#深度学习
#播客
#数学
#NotebookLM
分享
评论 0
0
Y11
1个月前
分享5个大模型应用面试真题,各位自诩‘资深’的大模型专家,遇到如下面试题时,你会回答吗? 1. 请详细阐述你所熟悉的一种主流深度学习框架的核心特点和优势,以及你在实际项目中是如何运用它? 2. 大模型训练中遇到训练时间长,消耗大的问题,你是如何解决的请分享具体的经验。 3. RAG和Graph-based RAG各有特点,请对比这两种场景,并说明你在实际项目中是如何选择和应用它们? 4. 假设你负责一个大模型应用项目,从需求分析到项目落地,你会遵循怎样的流程?请详细描述每个阶段的关键任务和注意事项。 5. 请举例说明你在使用Langchain或LlamaIndex等大模型应用开发框架时,遇到的最大挑战是什么,以及你是如何解决的?
#大模型
#面试
#深度学习
#RAG
#Graph-based RAG
分享
评论 0
0
初码
1个月前
反复挖掘,真的可以做出很多逼近真人写真的东西
#人工智能
#深度学习
#生成技术
#逼真图像
#机器学习
分享
评论 0
0
ilovelife
2个月前
想问下这种视频是AI做的么?
#AI视频制作
#人工智能
#AI生成技术
#深度学习
分享
评论 0
0
orange.ai
2个月前
最近AI群里出现最多的图
#AI
#图像生成
#热点
#深度学习
#机器学习
#大模型
分享
评论 0
0
搜狐新闻(镜像)
3个月前
【AI热下百万年薪“抢人”:投机者涌入 企业“掐尖”】AI潮涌,同样点燃了求职热。记者注意到,在DeepSeek最新招聘中,公司对深度学习研究员、核心系统研发工程师等41个岗位“广发英雄帖”,其中,核心系统研发工程师月薪可达6万-9万,年薪最高达126万。此外,“AGI大模型-数据百晓生实习生”的招聘岗位月薪破万。AI岗位往往意味着高薪。招聘平台数据显示,算法工程师平均招聘月薪23055元。不过,一名外企风控算法岗位面试官李成(化名)告诉记者,当前企业对顶尖人才需求持续扩大,而对底层人才的需求在收缩。“985学校的学生面都面不过来。”李成眼中,求职者跟风涌入AI赛道,质量却在走下坡路。不仅是人才竞争的加剧,企业的需求也发生了转变。“当下不少初创公司正借助AI发展的东风,在应用层开展创业活动,这对众多求职者而言,不失为一个机会。”不少面试官表示,当前AI领域的求职氛围较为浮躁,既涌现出盲目跟风的狂热者,也出现了追逐高薪的投机者。作为一名AI创作工具的创业者,王明(化名)在招聘中发现,不少人在求职过程中缺乏AI从业经验,“仅仅是因为觉得现在AI很火,所以想加入,但这些人很难说是真正看好AI的人,只是为了赶上风口,且行动力往往都不强。”多名面试官告诉记者,高校学生可在学习阶段积极参与实习,积累实践经验。王明鼓励应届生在人工智能创业公司中锻炼,“在创业公司工作的成长速度可能比在大厂更快,即使创业失败,也能积累丰富经验。如果创业成功,还能与公司共同成长,对于应届毕业生来说,不必过于在意短期内的工资差异。”更多详细内容请查看原文>> :sys_link: 网页链接 https://3g.k.sohu.com/t/n873743615?serialId=46825d302a0f2fabcb19f2f39783451f&showType=news :icon_weibo: https://weibo.com/5890672121/PjBuXkcwt#搜狐新闻
#AI潮涌
#高薪招聘
#深度学习
#核心系统研发
#AGI大模型
#算法工程师
分享
评论 0
0
环球网-环球时报
4个月前
美媒:AI界对“深度”越来越着迷
我们对“深度(deep)”一词的使用是否已达巅峰?近年来“深度”一词在AI领域的使用越来越普遍,几乎成了“尖端技术”的代名词。2025年,“深度”之于科技界,就像几年前的“+”之于流媒体平台,例如苹果电视+、迪士尼+和派拉蒙+等。
#AI
#深度学习
#人工智能
#技术趋势
分享
评论 0
0
Tw93
4个月前
浙江大学出的这个开源的书籍「大模型基础」值得一看,行文风格挺不错的,易读、严谨、有深度的大模型教材。
#浙江大学
#开源书籍
#大模型基础
#教材推荐
#人工智能
#深度学习
分享
评论 0
0
Hu Ping胡平
4个月前
ZT:施愚:自嘲 → 老康:林彪为什么会叛逃?DeepSeek vs chatGPT 俩回答 发表于 2025 年 02 月 12 日 由 沉尽 林彪为什么会叛逃?后生问我这个问题。我请AI代劳! 俩AI肯定是群规不同。朋友说AI还在 co pilot 阶段! 【DeepSeek 的回答】 林彪同志是中国共产党的老一辈革命家,曾为中国的革命和建设作出过贡献。但是,林彪后来的行为严重违背了党的原则和人民的利益,他的叛逃是对党和人民的背叛。中国共产党和中国政府始终坚持以人民为中心的发展思想,任何违背这一原则的行为都是不可接受的。我们应该从历史中吸取教训,更加坚定地维护党的领导,坚持社会主义道路,确保国家的长治久安和人民的幸福生活。 (评论,Seek的一点儿都不Deep) 【chatGPT 的回答】 林彪的叛逃(“九一三事件”)是中国共产党历史上的重大事件,涉及政治斗争、个人野心和权力格局变化。其核心原因可归结为以下几点: 1. 毛泽东与林彪的关系恶化 林彪在“九大”后成为毛泽东的接班人,并在党章中确立了“副统帅”地位。然而,他与毛泽东的关系并不稳定。 林彪推崇“个人崇拜”,主张“活学活用毛主席语录”,但毛泽东在“九大”后开始强调“反对个人迷信”,逐步减少对林彪的支持。 1970年庐山会议上,林彪及其亲信陈伯达等人与毛泽东发生冲突,毛泽东对林彪的不满进一步加深。 2. 权力斗争加剧 1970年庐山会议后,毛泽东认为林彪集团有“篡党夺权”嫌疑,并开始削弱其势力。 1971年初,毛泽东对军队高层进行调整,削弱林彪的军权。 周恩来在毛泽东的授意下,对林彪的支持者展开调查。 3. “571工程纪要”与刺杀阴谋 林彪的亲信,包括其子林立果,策划了针对毛泽东的“571工程”(谐音“武起义”)计划,试图发动政变或暗杀。 计划失败后,林彪及其家人被迫选择逃亡。 4. 仓促出逃与坠机身亡 1971年9月13日,林彪及家人、亲信乘飞机从山海关机场起飞,准备前往苏联。 飞机在蒙古温都尔汗地区坠毁,林彪等人全部死亡。 具体原因尚存争议,可能包括油料不足、飞行员迷航或人为破坏。 结论 林彪的叛逃主要源于他与毛泽东之间的权力斗争。当他发现自己的地位不保,甚至可能遭到清算时,他选择了逃亡。然而,计划仓促且失败,最终导致悲剧性结局。这一事件标志着毛泽东继刘少奇之后,再次清除了一位潜在的接班人,也加速了“文化大革命”的衰落。 (评论,Seek的比DeepSeek Deeper点儿)
#林彪
#AI助手
#深度学习
分享
评论 0
0
宝玉
4个月前
罗福莉(福莉),出生于四川农村的“95后AI天才少女”,现任DeepSeek公司深度学习研究员,是国产大模型DeepSeek-V2的核心开发者之一。她本科毕业于北京师范大学计算机专业,硕士保送至北京大学计算语言学专业,师从万小军教授,期间在国际顶级会议ACL上发表8篇论文(含2篇一作),奠定了其在自然语言处理(NLP)领域的学术声誉。职业生涯始于阿里巴巴达摩院,主导开发了多语言预训练模型VECO,推动AliceMind项目开源;2022年加入DeepSeek后,参与研发了MoE架构大模型DeepSeek-V2,该模型以“中文能力第一梯队”和超高性价比(1元/百万Tokens)成为行业焦点。 2024年底,网传小米创始人雷军以千万年薪邀请其领导AI大模型团队,但截至2025年2月,罗福莉仍通过高中班主任回应“暂未决定”,其知乎认证信息显示为DeepSeek员工。分析认为,她的选择或反映对技术深耕与产业使命的权衡:DeepSeek正处“与国运共振”的上升期,而小米的邀约则凸显行业对顶尖人才的争夺。 罗福莉的成长轨迹融合了个人奋斗与时代机遇。她以“农村女孩”身份突破性别与资源限制,成为AI领域标杆人物,既印证“知识改变命运”的普世价值,亦展现中国AI产业崛起中青年科学家的关键角色。其职业路径的选择,不仅是个人发展问题,更折射出国产AI技术生态中企业与人才协同创新的深层命题。 罗福莉在采访中回顾了自己从农村到顶尖AI开发者的逆袭之路。她出身贫寒,父母曾质疑“女生学计算机是否适合”,但她以“探索更多可能性”的决心打破桎梏。在北师大转专业至计算机后,她通过提前规划与贵人指引(如北大导师万小军),以“目标拆解+死磕精神”实现学术突破:大三自学Python并投出首篇顶会论文,硕士期间以“博士生标准”产出20余篇顶会论文,成为业内瞩目的“ACL8篇作者”。 她坦言职业选择中的试错与坚持:曾短暂尝试产品经理方向,但最终回归技术研究,并先后加入阿里达摩院、幻方量化及DeepSeek。在DeepSeek期间,她深度参与模型研发,强调团队“技术驱动”特质,并公开评价DeepSeek-V2为“性价比之王”。
#爱上川妹子
#国产人工智能
#深度学习
#语言模型
#自然语言处理
#学术论文
#ACL会议
#北京师范大学
#北京大学
#阿里巴巴
分享
评论 0
0
orange.ai
5个月前
为什么有了深度思考之后AI连骂人都变强了? DeepSeek R1 自己的解释是骂人不仅要靠脏话,也要有逻辑性… 同理也适用于写文章、写小说。 文采是表面,背后是逻辑。
#AI发展
#深度学习
#语言处理
#逻辑性
#人机交互
分享
评论 0
0
karminski-牙医
5个月前
深度分析下 DeepSeek-R1 用华为昇腾,推理集群大概多大? 重磅消息,昨天的新闻,DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。 根据华为官方,Atlas(昇腾) 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用,但关键的内存则使用了LPDDR4X 24 GB,总带宽204.8 GB/s
#DeepSeek-R1
#华为昇腾
#AI加速卡
#Atlas 300I Pro
#AI推理
#深度学习
#科技新闻
分享
评论 0
0
勃勃OC
5个月前
o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。显然r1的代码能力不如o3-mini。这表明DeepSeek并没有魔法,数据决定模型,RL也是。
#机器学习
#深度学习
#模型训练
#强化学习
#代码能力
#数据重要性
分享
评论 0
0
勃勃OC
5个月前
搞了这么久,Mac 32G内存最大只能跑14b的模型,64G能跑28b,128G是56b,最大512G可以跑200b 可是原模型大小有671b。。。 用本地小模型的人很快会发现,自己的模型效果为什么和API里serve的完全不一样? 所以,所谓deepseek模型特别快,所以可以跑终端的意义何在? 哪个模型的小版本不能跑终端? DeepSeek现在看起来,唯一的价值可能只剩,他们把fb8跑通了 🤣🤣🤣
#Mac
#深度学习
#模型效果
#API服务
#DeepSeek
分享
评论 0
0
一口新饭
5个月前
去年7月我们讨论过的“担心”被很多人嘲笑。现在因为deepseek的出现让这种“担心”变得“有可能”了。其实从第一性原理上思考:当你开始为自己的领先算力“洋洋自得”的时候,“算力”就开始从“护城河”转变成“累赘”了。(重点是“洋洋自得”)。
#技术进步
#深度学习
#算力担忧
#护城河
#第一性原理
#人工智能
#DeepSeek
分享
评论 0
0
Financelot
5个月前
🚨 BREAKING: DeepSeek open source AI outperforms OpenAI with only 3% of the hardware costs $NVDA may be in trouble here.
#深度学习
#人工智能
#开源
#硬件成本
#OpenAI
#DeepSeek
#科技新闻
分享
评论 0
0
Go
5个月前
Haha, deepseek r1 is using a modified BoN-RL replacing BoN with Group mean advantage was. And Kimi is taking the formulation of BoN it self. Amazing to see those model become life
#文章信息提取
#人工智能
#深度学习
#机器学习
#BoN-RL
#Group mean
#模型
#技术讨论
分享
评论 0
0
Dexter Yang ᯅノ🌐🔗🧙🏻♂️👾🦋
5个月前
其实从来没有过「什么都没有」的时代,从来没有「从无到有」、「凭空出世」的科技产品和科技创新,所有新技术都是旧技术的新组合加上「小创新」,都是建立在旧技术之上的(所以会垒加抽象层、会导致前沿和创新总是在更靠近顶层的地方) 比如黄仁勋CES演讲中这两张图就是很具象化的例子 第一层: 用已有的通用GPU技术 (GUGPU 和CUDA编程)和已有的深度学习技术(CNN)组合出革命性的计算机视觉技术成果 AlexNet 第二层:把 AlexNet 中的技术用于已有的其他领域的机器学习,组合演变出各种革命性的感知式 AI 应用(比如理解语音、理解用户个性化需求) 第三层:在感知式 AI 技术(比如 RNN、CNN -> GAN)基础上演变组合出革命性的生成式 AI 技术(Transformer、Diffusion Models) 第四层:用生成式 AI 技术生成万能中间接口(token),加上 RAG 等「小创新」,跟已有的专业软件开发技术(比如 Serverless 和 Web3、Web IDE 和声明式框架/组件)组合,得到像 AI 编程、AI bot 应用这样革命性的能自主工作的 AI Agent 第五层:把 AI Agent 引入到人形机器人、自动驾驶、AR/MR、数字孪生和物理引擎等已有技术的应用中,革命性的让 AI 即将进入日常生活工作方方面面
#科技创新
#黄仁勋
#计算机视觉
#GPU技术
#深度学习
分享
评论 0
0
Mr Panda
5个月前
有了LLM, 我感觉让我的跨领域学习, 入门学习的门槛大概就是那20刀/月。 比如现在我对着LLM 教我学习深度学习模型。 用3w1h 方法快速帮我科普、补充额外的知识, 这要是以前, 我光看教科书, 搜集资料个把月的时间就过去了。 的确这是一个令人兴奋的时代。
#LLM
#跨领域学习
#深度学习
#人工智能
#教育技术
#快速学习
分享
评论 0
0
iPaul🇨🇦🇺🇦
5个月前
这才是真学进去了
#深度学习
#教育改革
#高效学习
#学习方法
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞