时政
财经
科技
登录
#预训练
关注
马东锡 NLP 🇸🇪
2个月前
「LLM, Reasoning」论文: Rethinking Reflection in Pre-Training 预训练卷土重来,reasoning 时代神奇的 “wait” 再现。 本周我最喜欢的一篇论文来了。 来自 Essential AI,由 Ashish Vaswani 主导,对写过论文的人来说,这个引用太熟悉了 (Vaswani et al., 2017), Transformer 论文第一作者。 论文提出一个非常重要的发现:LLM 在 pretraining 阶段就已经表现出跨任务、跨领域的 general reasoning 能力。更特别的是,一个简单的 token ——“wait”—— 可以作为 reflection trigger,显著提升模型的 reasoning 表现。 相比当前主流的 post-training 方法,不断精细 reward model 的策略,这项工作跳出box,从新的角度审视大模型reasoning的问题。 说实话,RL 的各种 reward 操作看得人有点累觉不爱,而且在提升 general reasoning 上已经逐渐显现出瓶颈 —— 许多方法仍然停留在 task-specific 的 math benchmark 上,并没有真正触及 reasoning 的本质:跨领域、跨任务、可迁移。 相比之下,pretraining 的方法显得更为“neat” —— 不仅更敏捷,也更接近 LLM 的能力本源。 Make pretraining Great Again!
#预训练
#推理
#论文
#Essential AI
#Ashish Vaswani
#transformer
分享
评论 0
0
karminski-牙医
3个月前
刚刚 Google 的开源模型 Gemma 3 发布了! 几个关键点: - 这次放出了pt(预训练,Pre-Training)和 it (指令微调,Instruction Tuning)版本,默认用it即可。pt更多是给大家用来微调用的基座模型 - Gemma-3 是多模态的,可以处理图片输入 - 大小分别是1B,4B,12B,27B - 支持 128K 上下文 - MMLU-Pro 评分,Gemma 3-27B-it 得分为 67.5,接近 Gemini 1.5 Pro(75.8) - ChatbotArena 得分 133,超过了更大的 LLaMA 3 405B(1257)和 Qwen2.5-70B(1257) - GGUF量化版本已经放出了,包括Mac专用的mlx版本。地址我放在最下面 我正在测了!稍后给大家带来大家最关心的 Gemma-3-27B-it VS QwQ-32B-BF16 的测试结果! 顺便 Gemma-3-27B-it 是可以免费白嫖的哈,注册 Google AI Studio 就能用了 Unsloth GGUF量化版本地址: MLX量化版本:
#Google
#Gemma 3
#开源模型
#多模态
#预训练
#指令微调
分享
评论 0
0
orange.ai
4个月前
深度角色扮演模型 DeepSex 使用思维链和强化学习技术增强模型角色扮演,小说生成能,提升模型的创作能力。 四阶段进化架构: 增量预训练:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性 Tifa-SFT:融合全球Top4角色扮演模型Tifa的10万条高质量数据 CoT恢复训练:采用Deepseek-32B/671B数据重建推理能力 RL强化:保留发散性思维标签的同时优化生成质量 工程创新: 16k超长上下文训练 随机截断训练增强鲁棒性 8×H20 GPU全量微调 启示与后续: 我们在测试中发现,满血R1在角色扮演中输出内容比较发散,随机,导致此模型有相同倾向,对于角色扮演的影响还在研究中 输入内容相近的话语会导致向量重叠,然后重复输出,如“继续”,“还有”等无明显指向性话语 思维内容与正文关联性学习了满血R1的特点,发散比较严重,可能会有割裂感 针对以上问题,我们正在编写新的RL算法,初步计划剔除部分满血R1的内容,同时通过强化学习解决重复
#深度角色扮演
#DeepSex
#思维链
#强化学习
#模型创作
#小说生成
#预训练
#角色扮演模型
分享
评论 0
0
Panda
5个月前
预训练23年底就死了,只是这两个月才埋 微调24年q1也死了,只是还没有被埋 更是发现有些名词从前沿传到创投圈就被异化了词义: 大模型做teacher model教作为student的小模型,有人把这个过程叫做蒸馏,是完全错误的 teacher student的模型范式和蒸馏没关系 蒸馏也不是简单的做数据再训练 weak to strong learning才是核心
#预训练
#微调
#大模型
#teacher model
#student model
#蒸馏
#模型范式
#weak to strong learning
分享
评论 0
0
响马
5个月前
大模型预训练 2023 年底就走到瓶颈了,去年一直在压缩。
#大模型
#预训练
#瓶颈
#技术进步
#2023
分享
评论 0
0
未完成
5个月前
近期零一万物一系列事件的梳理: - 财务危机:2025年1月,李开复在内部会议上提到预训练投入过大,计划转型做应用。 - 裁员与团队变动:2024年12月中旬,零一万物裁撤了预训练算法团队和Infra团队,包括硅谷团队。12月末,阿里通义团队和阿里云分别向这些团队提供了offer,但并非收购,而是提供工作岗位。 - 阿里的角色:阿里通过提供工作岗位的形式收编了零一万物的部分员工,目前仅为口头offer,具体条款尚未商谈。 - 战略调整:零一万物计划转型做应用,旗下部分应用团队已拆分为子公司,寻求外部融资。其中,出海应用PopAi表现良好,已自负盈亏。 - 辟谣与官方回应:李开复和零一万物官方均否认了「散伙」和「团队卖给阿里」的传闻,强调公司仍在运营中。
#财务危机
#裁员
#团队变动
#阿里
#预训练
#转型
#收购
#工作岗位
分享
评论 0
0
orange.ai
5个月前
网传阿里洽谈收购零一万物的预训练团队。 大模型公司不做预训练其实真的没什么。 预训练的ROI这么低,钱花在哪里不好呢?
#阿里巴巴
#收购
#零一万物
#预训练
#大模型
#投资回报率
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞