向阳乔木 0 关注者 关注 4天前 Huggingface今天的最热论文,AI大白话解读: DeepSeek-R1之后,GRPO成了最热的训练方法。 但这个方法有个大坑:会系统性地"看错"题目难度 会导致模型在该努力的地方偷懒,在该放手的地方死磕。 先说GRPO怎么工作的 给模型同一道题,让它答8次,算个平均分当基准。 高于平均的答案就鼓励,低于平均的就惩罚 问题就出在这个"平均分"上。 想下,做一道超难的题,8次只 前往原网页查看