Large Reasoning Mode- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

0 关注者

4个月前

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。 Reinforcement Learning: An Overview：

#强化学习 #大型语言模型 #RLHF #PPO #MDP #Reinforcement Learning #LLM

相关新闻

Tw93

23小时前

这个可以的，深入理解 LLM 核心原理，动手实现你的第一个大模型，Datawhale 开源免费电子书，非常简单好读。

凡人小北

3天前

《How to Fix Your Context》这篇上下文工程指南，建议跟 Manus 六大上下文工程法则一起看，它们分别来自两个方向：一个是跑在工程一线踩过坑的 Agent 系统实践者，一个是站在系统架构角度思考 LLM 工作方式的认知构建者。我把这两篇文章有一起读了一篇，有种“内功交叉灌顶”的感觉。作者回顾了长上下文为什么会失败？ 1️⃣ 上下文污染：当幻觉或其他错误进入上下文，并被反

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4天前

和LLM这类认知智能系统交互，与其他的系统都不太一样的地方是：meta interaction 可能源自这类系统的meta learning特性。就是你可以一直回溯，只到能继续这种交互。从最早的prompt，如果你不知道提问，你可以问LLM怎么写提示词；今天的vibe coding也一样，你可以一直回溯到你怎么敲下claude code的第一句指令。这是历史上从未有过的智能交互。

yan5xu

4天前

五月份发到即刻上的一个随想。昨天回家路上突然想到一个让Agent自我成长的框架：大部分工作都能梳理成SOP → SOP变成workflow → workflow打包成tool → tool又能成为新workflow的节点... 受《思考，快与慢》启发，这个框架天然就有两套系统：慢系统：像人深度思考，注重逻辑推演。用最贵最聪明的大模型分析和梳理工作流程快系统：像人的直觉，着重快速反应。用低成

0xTodd

6天前

看来这次轮到我的号进入 ChatGPT 的灰度测试了😆 Plus 账号可以体验 GPT 官方的 AI Agent 了。想重申一下我的观点，上周晚上和 Amber 那次直播里我也提到过： 1. 未来大模型 LLM 自己就会亲自做 AI Agent，然后凭借自己的入口优势占掉绝大多数市场。 2. 第三方 AI Agent 是个少见的边际效应不会递减的生意。你如果做 AI Agent 一直用其