Frank2025-05-30 00:29:57deepseek又提升了不少,想起之前刷ImageNet的日子,用剪纸和各种channel wise的操作将ResNet砍掉一大半的参数可以不掉精度,但剪得越多训练时需要更仔细的去调参,模型收敛速度也会显著慢很多,小模型压榨性能真的很不容易 #DeepSeek#ImageNet#ResNet