0 关注者

4天前

Huggingface今天的最热论文，AI大白话解读： DeepSeek-R1之后，GRPO成了最热的训练方法。但这个方法有个大坑：会系统性地"看错"题目难度会导致模型在该努力的地方偷懒，在该放手的地方死磕。先说GRPO怎么工作的给模型同一道题，让它答8次，算个平均分当基准。高于平均的答案就鼓励，低于平均的就惩罚问题就出在这个"平均分"上。想下，做一道超难的题，8次只

热门新闻