时政
财经
科技
虚拟货币
其他
登录
#NTP
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
3周前
NTP (Next Token Prediction): 这是所有LLM的“爬行动物脑”。是纯粹的、无意识的、基于统计的“本能”。它是L0智能的来源。 终于找到可以对应MAX Bennet的智能简史中的5个动物智能的breakthrough了。
#NTP
#LLM
#爬行动物脑
#MAX Bennet
#智能简史
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
Deepseek的GRPO(Group Relative Policy Optimization )算法,还是非常有效的long CoT的RL方法,根据最后结果只和之前的相比更趋近目标,就能得到奖励,非常smart,在reward hack和RL效能之间取得平衡。 姚顺雨说起来只是个搞prompt的,用Tree of Search解决NTP基础上的有一定结构的token块的搜索问题。 语言真是太神奇了。符号表征和结构解构能力都有无穷可能。
#DeepSeek
#GRPO算法
#long CoT
#RL方法
#姚顺雨
#Tree of Search
#NTP
#token块搜索
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
Shunyu Yao用Tree of Thought来解决ReACT内化问题,1950s的那个年代的人计算思维太牛比了。 NTP天然可以解决会话conversational的,只需要一些instruction following和SFT就行,这似乎说明语言功用天生是其社会解释性,这是直觉。(Alec Radford GPT NTP/语义解析) 而利用NTP进入思考空间,则需要CoT轨迹数据进行RLHF/RLVR,思考轨迹数据在commoncrawl是比较少的。DeepSeek的GRPO是个非常smart的RL算法(Jason Wei 验证者定律) NTP语言进入行动空间,则更困难。行动空间在人来说是天生具身的。所以要借助一些符号主义的算法来做agentic LLM。(ReACT/ToT/Shunyu Yao) 感觉上LLM agent呼之欲出了,基础已经铸就。 whats next?
#Shunyu Yao
#Tree of Thought
#React
#NTP
#LLM Agent
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
这篇论文让人想起agentic LLM还能走多远。LLM内部是否可以有多本体的NTP生成轨迹? 在充足且“行为可观测”的数据前提下,NTP 是把 agentic 模式“语言化并内化”的通用底座;配合 SFT 与 RL(PPO/GRPO)可使单体 LLM 展现广义 agentic 行为。 但是当任务需要真实的异质性、并行探索、在线协商/博弈与非语言状态耦合时,外化的多Agent系统与工具介入仍不可或缺。这也是综述把“agentic workflows”单独成章讨论的原因。
#多智能体之争:Anthropic生态VS单智能体· 60 条信息
#agentic LLM
#NTP
#多Agent系统
#语言模型
#行为可观测
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞