时政
财经
科技
虚拟货币
其他
登录
#梯度下降
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3天前
生物记忆系统至少有三个算法上不同的子系统: 海马体(情节记忆): 单次写入,时间索引,情绪加权 算法:可能更接近 sparse coding + temporal binding 不像梯度下降 新皮层(语义记忆): 慢速整合,统计提取,泛化 算法:更接近 Hebbian 可塑性的慢速累积 某种程度上像梯度下降,但时间常数完全不同 工作记忆(L2/3 + 前额叶): 主动维持,注意力选择,快速衰减 算法:持续的 attractor 动力学 根本不是梯度下降,而是动力系统的稳定轨道
#生物记忆
#海马体
#新皮层
#工作记忆
#情节记忆
#语义记忆
#记忆算法
#sparse coding
#temporal binding
#Hebbian 可塑性
#梯度下降
分享
评论 0
0
花果山大圣
4个月前
看这个论文之前,我只是不懂注意力到底是个什么概念 研究了半天并且和 chatgpt 聊了几十轮后,现在不懂的东西有梯度下降,过拟合,决策树,SVM,深度神经网络,LSTM等 相比起来 rust 简单多了🧐
#注意力机制
#深度学习
#梯度下降
#过拟合
#Rust
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
5个月前
LLM不能:"我发现自己有偏见,让我修改权重" 因为: - 修改权重需要梯度下降 - 梯度下降需要损失函数 - 损失函数需要外部监督(人类标注) IWL是"他律"的,不是"自律"的。 IWL也不能实时适应与个性化。
#LLM偏见
#梯度下降
#外部监督
#他律
#非自律
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
5个月前
两种”权重更新”的方式 在任何神经网络中,系统的行为可以被概念化为: 输出 = f(输入; θ) 其中θ是网络参数(权重) 但这个式子可以被重写为: 输出 = f_context(输入; θ, c) 其中c是"上下文"(context) θ(权重):通过梯度下降缓慢更新 ∂L/∂θ = ...(需要反向传播) c(上下文):通过前向传播快速计算 c = g(历史输入; θ)(只需要前向传播)
#神经网络
#权重更新
#梯度下降
#前向传播
#上下文
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
5个月前
今天读的论文发现,LLM的智能,元认知程度也TMD是预训练阶段利用梯度下降的大算力对decode only transformer的神经网络的优化压力下激发出来的!
#LLM智能
#元认知
#预训练
#梯度下降
#神经网络优化
分享
评论 0
0
硅谷王川 Chuan
6个月前
“我的发际线在梯度下降 ” :)
#发际线
#梯度下降
#焦虑
#程序员
#幽默
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞