𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞 0 关注者 关注 1个月前 Skills的渐进式披露 Progressive Disclosure = Attention的显性化 Attention机制(在Transformer中)= 隐性的progressive disclosure Transformer的Attention: - 动态决定关注context中的哪部分 - softmax(QK^T) = relevance distribution - 不是所有t 前往原网页查看