周末又研究了一下HRM(分层推理模型),这个模型的特点是模仿人类大脑的信息处理机制,高层模块推理慢负责规划,低层模块推理快负责计算。 初始状态时,高层模块和低层模块的参与率相似,在经过1000个样本的学习(训练)后,高层模块的参与率明显高于低层模块,也就是说HRM的分层智能并非由设计者硬编码,而是在学习过程中“涌现”出的特性。 一个设想:因为HRM只有0.027B的大小,训练新能力也只需要1000个样本,也许可以发展成大模型的工具来用。现在的LLM的tool use/function cal都是调用已有的API和工具,针对特定领域的推理性任务,可以收集1000个样本快速训练出一个HRM模型,然后当做工具来用,这种方式理论上没有天花板。 HRM论文: Github: