这篇解释目前强化学习技术路线的论文可以看看，“强化学习”地位非常重要，但我们其实很难看懂算法原理——这通常需要很好的数学知识。所以如果不是做强化学习

#强化学习 #算法原理 #数学知识 #技术路线 #论文

相关新闻

ariel reyez romero

4天前

google今天这篇2025年4月的论文居然引发了存储的下跌，那我们就再重读一下： KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法，本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度，而是重新分配信息密度。普通部分用极低比特表示，异常值单独保留更高精度。同时不再逐元素处理，而是以向量为单位编码，因为 attention 本身就是内积结构。关键的是，它的误差已经贴近

日常焦虑帝

1周前

苏神博客上的配图比论文里的清楚多了... 连线有颜色区分，一看就知道，论文里的单色混在一起。

Mr Panda

2周前

opus 4.5 、codex 5.3 这两个模型，给我最大的体验就是反思能力增强。之前的模型会无脑的执行你的命令，在一次性处理的任务，表现在特别好。但在是如果我的命令不合理，存在与之前的业务逻辑矛盾的时候，之前的模型不会反思、也不会提醒我。这两个模型在反思能力表现上，非常的突出，不知道是不是强化学习的功劳。

howie.serious

3个月前

gemini 最佳实践：if 深度思考，then 信息图总结。每次和 gemini 聊完一个话题，如果是多轮的层层深入的对话，最后有所收获的话，那就多走一步：选择 nano 🍌， > 基于我们前面的对话，画一张信息图，整理核心观点例如，刚才和 ai 聊 llm 强化学习对于父母的启发。语言是模糊的，思想是在多轮对话中逐渐清晰的，和 llm 多轮对话当然是有启发的，但多了信息图总结这一步，

沉浸式翻译

4个月前

除了知网 Google Scholar，这个“学术界 Facebook”你一定要拥有！写论文最痛苦的是什么？搜到的文献全是付费墙（Paywall），看一眼摘要就要几十刀？想找的大佬论文在学校数据库里居然没有收录？投了稿石沉大海，不知道自己的研究到底有没有人在看？今天安利一个学术圈神仙网站——！如果说 ResearchGate 是理工科阵地，这里就是人文社科和全学科的宝藏库。 1

这篇解释目前强化学习技术路线的论文可以看看，“强化学习”地位非常重要，但我们其实很难看懂算法原理——这通常需要很好的数学知识。 所以如果不是做强化学习

相关新闻

这篇解释目前强化学习技术路线的论文可以看看，“强化学习”地位非常重要，但我们其实很难看懂算法原理——这通常需要很好的数学知识。所以如果不是做强化学习