#预训练

1周前

每天上看一看又有什么新岗位出来，还是挺有意思的。譬如发现现在搞AI大模型预训练最大的门槛还是来自学历，而做AI Agent没这个要求，主要还是看能力。遇到自己原先不知道的工作岗位和工作内容，就可以模拟面试看一看，也会有启发。

#AI大模型 #预训练 #学历 #AI Agent #能力

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1周前

除了pretraining，其它所有都是围绕怎么与LLM交互展开的。 agent也是交互，预训练后的LLM只是个缸中之脑，语义和结构的混沌汤。 zhilin是炼模型的，说的是怎么内化交互，shunyu更关注作为交互的agent。

#LLM交互 #agent #预训练 #zhilin #Shunyu

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1周前

LLM预训练的成果应该由全人类共享：包括会话理解与推理思考。由梁文锋把DeepSeek的开源成果发Nature想到的。

谷歌Deep Research：AI操作系统雏形？· 79 条信息

#LLM #预训练 #开源 #DeepSeek #梁文锋

3周前

OpenAI 揭秘：AI为什么会一本正经地胡说八道？ OpenAI 最近发表了一篇名为《语言模型为何会产生幻觉》(Why Language Models Hallucinate) 的文章，深入解释了 AI “幻觉”产生的根本原因，并提出了减少这种现象的解决方案。规则的“锅”：AI 被鼓励去猜测，而非承认无知文章指出，大语言模型之所以会产生“幻觉”，是因为我们现有的训练和评估方式存在一个根本性问题：它奖励猜测，而不是鼓励模型承认自己的不确定性。大多数评估体系衡量模型表现的方式，都无形中让模型养成了“猜答案”的习惯。当模型的评分标准只基于准确性时，它为了拿高分，自然会倾向于在不确定的时候蒙一个答案，而不是诚实地回答“我不知道”。问题的根源：来自“预训练”阶段的先天不足这种“爱猜测”的习惯，其实在模型的“学前教育”阶段，也就是预训练 (pretraining) 过程中，就已经埋下了种子。在预训练期间，模型通过预测海量文本中的下一个词来进行学习。但问题在于，这些学习材料并没有为每一句话贴上“真”或“假”的标签。这使得模型很难区分哪些是有效陈述，哪些是无效信息。这个挑战在处理那些偶然出现的、低频事实时尤其突出。比如，某个特定宠物的生日是哪天？这类信息无法单靠语言模式来预测，模型只能去“编造”，而这正是幻觉的直接来源。未来的出路：教会AI保持“诚实” 研究人员总结道，要解决幻觉问题，就必须更新那些只看重准确率的评估方法，让新的评分机制不再鼓励猜测。如果主流的评估“排行榜”继续奖励那些侥幸猜对的行为，那么模型就会继续学习并依赖猜测。他们强调，幻觉并非AI不可避免的缺陷。语言模型完全有能力在不确定的时候选择“弃权”，而不是胡说八道。我们需要做的，是创造一个能鼓励这种“诚实”行为的环境和规则。

#OpenAI #AI幻觉 #语言模型 #预训练 #诚实AI

1个月前

跑了几个深度研究的报告，分享给大家一起学习 LLM 预训练技术报告：深入浅出解读 SFT： RLHF 深度技术报告： LLM幻觉问题深度剖析与优化策略：

#LLM #预训练 #SFT #RLHF #幻觉问题

马东锡 NLP 🇸🇪

5个月前

「LLM, Reasoning」论文： Rethinking Reflection in Pre-Training 预训练卷土重来，reasoning 时代神奇的 “wait” 再现。本周我最喜欢的一篇论文来了。来自 Essential AI，由 Ashish Vaswani 主导，对写过论文的人来说，这个引用太熟悉了（Vaswani et al., 2017）， Transformer 论文第一作者。论文提出一个非常重要的发现：LLM 在 pretraining 阶段就已经表现出跨任务、跨领域的 general reasoning 能力。更特别的是，一个简单的 token ——“wait”—— 可以作为 reflection trigger，显著提升模型的 reasoning 表现。相比当前主流的 post-training 方法，不断精细 reward model 的策略，这项工作跳出box，从新的角度审视大模型reasoning的问题。说实话，RL 的各种 reward 操作看得人有点累觉不爱，而且在提升 general reasoning 上已经逐渐显现出瓶颈 —— 许多方法仍然停留在 task-specific 的 math benchmark 上，并没有真正触及 reasoning 的本质：跨领域、跨任务、可迁移。相比之下，pretraining 的方法显得更为“neat” —— 不仅更敏捷，也更接近 LLM 的能力本源。 Make pretraining Great Again!

#预训练 #推理 #论文 #Essential AI #Ashish Vaswani #transformer

karminski-牙医

6个月前

刚刚 Google 的开源模型 Gemma 3 发布了！几个关键点： - 这次放出了pt（预训练，Pre-Training）和 it （指令微调，Instruction Tuning）版本，默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的，可以处理图片输入 - 大小分别是1B，4B，12B，27B - 支持 128K 上下文 - MMLU-Pro 评分，Gemma 3-27B-it 得分为 67.5，接近 Gemini 1.5 Pro（75.8） - ChatbotArena 得分 133，超过了更大的 LLaMA 3 405B（1257）和 Qwen2.5-70B（1257） - GGUF量化版本已经放出了，包括Mac专用的mlx版本。地址我放在最下面我正在测了！稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈，注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址： MLX量化版本：

#Google #Gemma 3 #开源模型 #多模态 #预训练 #指令微调

7个月前

深度角色扮演模型 DeepSex 使用思维链和强化学习技术增强模型角色扮演，小说生成能，提升模型的创作能力。四阶段进化架构：增量预训练：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性 Tifa-SFT：融合全球Top4角色扮演模型Tifa的10万条高质量数据 CoT恢复训练：采用Deepseek-32B/671B数据重建推理能力 RL强化：保留发散性思维标签的同时优化生成质量工程创新： 16k超长上下文训练随机截断训练增强鲁棒性 8×H20 GPU全量微调启示与后续：我们在测试中发现，满血R1在角色扮演中输出内容比较发散，随机，导致此模型有相同倾向，对于角色扮演的影响还在研究中输入内容相近的话语会导致向量重叠，然后重复输出，如“继续”，“还有”等无明显指向性话语思维内容与正文关联性学习了满血R1的特点，发散比较严重，可能会有割裂感针对以上问题，我们正在编写新的RL算法，初步计划剔除部分满血R1的内容，同时通过强化学习解决重复

#深度角色扮演 #DeepSex #思维链 #强化学习 #模型创作 #小说生成 #预训练 #角色扮演模型

8个月前

预训练23年底就死了，只是这两个月才埋微调24年q1也死了，只是还没有被埋更是发现有些名词从前沿传到创投圈就被异化了词义：大模型做teacher model教作为student的小模型，有人把这个过程叫做蒸馏，是完全错误的 teacher student的模型范式和蒸馏没关系蒸馏也不是简单的做数据再训练 weak to strong learning才是核心

#预训练 #微调 #大模型 #teacher model #student model #蒸馏 #模型范式 #weak to strong learning

8个月前

大模型预训练 2023 年底就走到瓶颈了，去年一直在压缩。

#大模型 #预训练 #瓶颈 #技术进步 #2023

8个月前

近期零一万物一系列事件的梳理： - 财务危机：2025年1月，李开复在内部会议上提到预训练投入过大，计划转型做应用。 - 裁员与团队变动：2024年12月中旬，零一万物裁撤了预训练算法团队和Infra团队，包括硅谷团队。12月末，阿里通义团队和阿里云分别向这些团队提供了offer，但并非收购，而是提供工作岗位。 - 阿里的角色：阿里通过提供工作岗位的形式收编了零一万物的部分员工，目前仅为口头offer，具体条款尚未商谈。 - 战略调整：零一万物计划转型做应用，旗下部分应用团队已拆分为子公司，寻求外部融资。其中，出海应用PopAi表现良好，已自负盈亏。 - 辟谣与官方回应：李开复和零一万物官方均否认了「散伙」和「团队卖给阿里」的传闻，强调公司仍在运营中。

#财务危机 #裁员 #团队变动 #阿里 #预训练 #转型 #收购 #工作岗位

8个月前

网传阿里洽谈收购零一万物的预训练团队。大模型公司不做预训练其实真的没什么。预训练的ROI这么低，钱花在哪里不好呢？

#阿里巴巴 #收购 #零一万物 #预训练 #大模型 #投资回报率

腾讯新闻-虎嗅APP

8个月前

对话AI科学家刘威：“Ilya预训练终结论”对中国大模型公司影响不大

出品｜虎嗅科技组作者｜苏子华编辑｜苗正卿题图｜AI生成过去一段时间，“预训练终结”成为了 AI 领域最热烈的讨论之一。OpenAI的GPT系列模型此前大踏步的前进，预训练是核心推动力。而前 OpenAI 首席科学家 Ilya Sutskever、预训练和scaling law（规模定律）最忠实的倡导者，却宣称预训练要终结了、scaling law要失效。由此...

#预训练 #OpenAI #Ilya Sutskever #Scaling law #AI