𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
5天前
今天读的论文发现,LLM的智能,元认知程度也TMD是预训练阶段利用梯度下降的大算力对decode only transformer的神经网络的优化压力下激发出来的!
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
6天前
根据DeepMind的研究(Akyürek et al., 2023),ICL等价于: ΔW = u · vᵀ (秩1矩阵) 其中: • u ∈ ℝᵈ:输⼊模式("问题"的编码) • v ∈ ℝᵈ:输出⽅向("期望答案"的⽅向)