# Deepseek 的注意力优化算法： NSA 当前 AI 有一个很重要的能力指标叫上下文长度，这个长度在ChatGPT出来的时候是4K，现在主流模型基本上做到了128K，谷歌， MiniMax已经做到了1m，2m。如果把这个长度类比成计算机内存，我们现在还处在晶体管时代。这个长度难以拓展的原因在于注意力的复杂度上。随着问题上下文变长原始 Transformer 注意力的计算量呈平方

热门新闻

RamenPanda

11小时前

今天盘后爆了个大新闻，巴菲特人生中第一次买入谷歌，卖出苹果巴菲特享受安卓人生！

李老师不是你老师

9小时前

11月7日，特朗普在白宫签署公告，将2025年11月2日至8日定为“Anti‑Communism Week（反共产主义周）”。公告中，他将此举称为对“共产主义及其毁灭性意识形态”的严正回应，宣称共产主义“所到之处扼杀异议、惩罚信仰，使一代又一代人民跪拜于国家权力之下，而非为自由挺身而立”。他形容其历史“以鲜血与悲痛书写，是令人不寒而栗的警示，共产主义不过是奴役的另一种称谓”。

李老师不是你老师

9小时前

中国驻日使馆发布提醒：近期避免前往日本 11月14日，中国驻日本使馆发布安全提醒，称日本治安今年持续恶化，多起涉及中国公民的袭击案件仍未侦破。近期日本高层又发表涉台挑衅言论，使在日中国公民面临的安全风险进一步上升。使馆建议中国公民近期避免前往日本。

李老师不是你老师

9小时前

网友投稿 11月14日，江苏，徐州市第二中学，两名校内工作人员将一只小狗残忍虐杀。他们将一只流浪小黄狗逼到篮球场内，其中一人手持棍棒将小狗打晕，随后另一人驾驶扫地车碾压小狗，残忍致死。

Bruce

9小时前

万达不行了不是因为恒大倒闭了是因为整个房地产行业红利期结束了当年那批干房地产的大哥们万万也没想到有一天年轻人连房子都不买了就像今天的美国和韩国年轻人也不买币了往往身在其中的人，看的却最不清楚想象一下自己在天空俯视地球上所有的国家，所有的行业你会有不一样的视角