1天前

3B参赛模型用TPT可以提升10%以上性能。 我严重怀疑自监督学习本身先用统计规律撑满参数,然后模型会被逼再抽象出feature,火候掌握的好的话,模型的元认知能力就更出众。 “我们提出思维增强预训练(TPT),这是一种通用方法,用自动生成的思维轨迹来增强文本。 这种增强有效地增加了训练数据的量,并通过逐步推理和分解使高质量的令牌更容易学习。” “值得注意的是,TPT将LLM预培训的数据效率提