向阳乔木
0 关注者
Geek
1天前
你们搞大模型的就是码奸🤣
Boywus
大模型天生只输出“主流共识内容”,不会给你输出“非经典的创新内容”,所以最适合“跨领域基础知识对齐”,别让它给你直接搞一个某领域的“局部最优解方案”。 根本原因就是,输入层的“训练语料”的数据源就是“幂律分布”的,主流内容占比非常高;输出层又是个概率模型,输出“下一个最可能出现的词”,导致更倾向于输出“主流共识内容”。 如果问题的答案主要来自“公开语料中的稳定规律”,就适合LLM,比如 通用知
花果山大圣
4天前
你们搞大模型的就是码奸,你们已经害死前端兄弟了,还要害死后端兄弟,测试兄弟,运维兄弟,最后害死自己害死全人类 硅基文明给了你什么好处,你都吃了回扣了吧
艾略特
5天前
论文来了。名字叫 MSA,Memory Sparse Attention。 一句话说清楚它是什么: 让大模型原生拥有超长记忆。不是外挂检索,不是暴力扩窗口,而是把「记忆」直接长进了注意力机制里,端到端训练。 过去的方案为什么不行? RAG 的本质是「开卷考试」。模型自己不记东西,全靠现场翻笔记。翻得准不准要看检索质量,翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理,就抓瞎了。
卫斯理
小龙虾的“成果” 昨天搞了个小龙虾的agent给大领导用,领导给机器人发了条信息 “每天早上7点去新闻网站抓取5条重要信息发我” 第二天,信息如约而至,领导很开心... 我也很开心,我可以很开心的白嫖公司的大模型高级套餐了....