汉松

汉松

0 关注者

6天前

DeepResearch Agent 有一个很大的问题就是多次的搜索阅读很容易就把上下文窗口用光了,常规的做法是像 Claude Code 一样,超过阈值就触发记忆压缩。通义的论文《ReSum》提出了一种在 RL 中让模型学会更好地利用压缩内容的方法。 这个方法我们之前也考虑过,但这样做在强化学习的时候会有一个问题:一旦触发记忆压缩,整个历史记录都会变成压缩后的内容,此时模型就只能看到压缩后的

相关新闻

关联事件