勃勃OC
0 关注者
ariel reyez romero
5天前
google今天这篇2025年4月的论文居然引发了存储的下跌,那我们就再重读一下: KV cache 一直是大模型推理里的最大内存消耗来源。论文的做法,本质是用信息论最优的方式去压缩这些数据。不是简单地降低精度,而是重新分配信息密度。普通部分用极低比特表示,异常值单独保留更高精度。同时不再逐元素处理,而是以向量为单位编码,因为 attention 本身就是内积结构。 关键的是,它的误差已经贴近
日常焦虑帝
1周前
苏神博客上的配图比论文里的清楚多了... 连线有颜色区分,一看就知道,论文里的单色混在一起。
沉浸式翻译
4个月前
除了知网 Google Scholar,这个“学术界 Facebook”你一定要拥有! 写论文最痛苦的是什么? 搜到的文献全是付费墙(Paywall),看一眼摘要就要几十刀? 想找的大佬论文在学校数据库里居然没有收录? 投了稿石沉大海,不知道自己的研究到底有没有人在看? 今天安利一个学术圈神仙网站——!如果说 ResearchGate 是理工科阵地,这里就是人文社科和全学科的宝藏库 。 1
Morris
想把什么想法植入到别人的脑中,那就把它放在“为什么”这三个字后面,然后就可以了。比如说,为什么爱因斯坦晚年改信上帝了?你可能会说,那可能是受家庭影响吧,那是时代局限性的使然吧,也许爱因斯坦可能有别的考量吧。你有没有发现,不管你怎么回答,爱因斯坦晚年改信上帝这个观点,他已经被植入到你的脑海中了。但事实上,爱因斯坦可能并没有改信上帝,理解了吧。
Colin Wu
宇宙就像一块布,星球让布变形,形成凹陷(curvature)。 看到一个比喻,用 GPT 研究学习下: 可以先把时空想象成一张拉紧的橡皮布(2D)。把太阳放上去 → 布下沉了一块。地球像个小球 → 被“凹陷”吸引,沿着凹陷绕圈。地球不是被“拉住”,而是“顺着弯曲的布面”滚动。这个比喻的意义是:星体让时空弯曲,引力其实是物体在弯曲的时空中走最直的路径。 但是这个比喻也不准确,因为宇宙不是膜、