大模型天生只输出“主流共识内容”，不会给你输出“非经典的创新内容”，所以最适合“跨领域基础知识对齐”，别让它给你直接搞一个某领域的“局部最优解方案”。根本原因就是，输入层的“训练语料”的数据源就是“幂律分布”的，主流内容占比非常高；输出层又是个概率模型，输出“下一个最可能出现的词”，导致更倾向于输出“主流共识内容”。如果问题的答案主要来自“公开语料中的稳定规律”，就适合LLM，比如通用知

#大模型 #主流共识 #输入层 #幂律分布 #输出层 #概率模型 #稳定规律 #公开语料

相关新闻

花果山大圣

2天前

你们搞大模型的就是码奸，你们已经害死前端兄弟了，还要害死后端兄弟，测试兄弟，运维兄弟，最后害死自己害死全人类硅基文明给了你什么好处，你都吃了回扣了吧

艾略特

3天前

论文来了。名字叫 MSA，Memory Sparse Attention。一句话说清楚它是什么：让大模型原生拥有超长记忆。不是外挂检索，不是暴力扩窗口，而是把「记忆」直接长进了注意力机制里，端到端训练。过去的方案为什么不行？ RAG 的本质是「开卷考试」。模型自己不记东西，全靠现场翻笔记。翻得准不准要看检索质量，翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理，就抓瞎了。

卫斯理

3天前

小龙虾的“成果” 昨天搞了个小龙虾的agent给大领导用，领导给机器人发了条信息 “每天早上7点去新闻网站抓取5条重要信息发我” 第二天，信息如约而至，领导很开心... 我也很开心，我可以很开心的白嫖公司的大模型高级套餐了....

Xiaowen

4天前

这几天重度的使用 A3B 和 27B。 A3B 的使用一定要垂直，并理解它没有能力（足够的参数量）跨领域连接知识给你足够深度的信息和洞察。大参数满血模型的很多魅力和价值坍塌以后就无效了。这些深度的使用场景，评分儿是一点都看不出来的。

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4天前

戒掉想象性拥有，你就能拥有你所该拥有？哈哈，这和大模型一样一样啊，想象性拥有具身！