#后训练

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

后训练less is more的精髓，是元认知范式的抽象，抽象得越好，泛化能力越高。抽象得不好的话，模型生成的token就纠结了，谁让咱是个NTP生成器呢！

#后训练 #元认知 #泛化能力 #NTP生成器 #抽象

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

看懂meta对GPRO的优化就能搞清楚后训练的90%了吧

#Meta #GPRO #后训练 #模型优化 #技术分析

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

后训练LLM交互创新内化还要看中国

#科技创新与传统产业的激烈碰撞，城市动能如何重塑未来· 107 条信息

#LLM #交互创新 #中国 #内化 #后训练

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

后训练大家都摸到门道了

#后训练 #摸到门道 #积极

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

2个月前

后训练post training是应该统一起来看了低维流形的可塑性

#后训练 #低维流形 #可塑性

马东锡 NLP 🇸🇪

7个月前

大语言模型 post-training 的变迁，从 Large Language Model (LLM) 到 Large Reasoning Model (LRM) 本周推荐论文：POST-TRAINING OF LARGE LANGUAGE MODELS Post-training，本质是在做一件事，即如何运用 LLM 的 pretrained knowledge 来解决实际任务，具体的方法如 supervised fine-tuning（SFT）、instruction tuning 以及 reinforcement learning（RL）。

#大语言模型 #后训练 #Large Language Model #Large Reasoning Model #POST-TRAINING #预训练知识