𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
看KIMIzhilin访谈给我的启发: LLM agentic 生成行为的训练,是在next token predition基础上构建新的生成路径模式(原来我认为只是MLP层主导,现在看来是attention和MLP共同作用于残差流) 思维模式的抽象大于行为模式的抽象,越抽象越能泛化,但构建能力越弱。 COT是顶级的,还有reflect/plan search模式思考和行为兼顾 code
iPaul
4个月前
从商鞅那时候起就种下了种子
Tom Huang
4个月前
这个也太酷了!支持本地部署,字节跳动刚刚宣布发布了一款 7B 的多模态模型⚡️ 支持思维链思考和生成图片,并且支持支持自然语言编辑能力,在开启 CoT 的基础上,性能超越 Gemini-2-exp 的生图能力 开源地址 👉
摩西煮酒MosesTalking
5个月前
共匪集“商鞅+斯大林”之大成