𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
9小时前
重读最近张小珺对杨植麟和姚顺雨的访谈: KIMI除了继续探索长上下文的智商下降问题,K2还通过MUON优化提高token efficiency ,也尝试了agentic LLM方向,并表示模型能力需要RL激发但存在泛化的复杂问题,而基模预训练仍旧会提高交互的上限; 而姚顺雨则表现了和杨植麟不一样的对语言的深刻哲学理解以及强调未来的交互创新是关键,甚至会改变这个世界,但我不确定是他本来的认知轨迹
Barret李靖
19小时前
借助 LLM 学习 LLM,边学边问😃,《图解DeepSeek技术》这本小册子,不到一百页,把推理大模型的基本原理、MoE 架构设计和 R1 训练过程等几个东西讲清楚了,值得读两遍。
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1天前
后训练LLM交互创新内化还要看中国