时政
财经
科技
虚拟货币
其他
登录
#强化学习
关注
howie.serious
4周前
gemini 最佳实践:if 深度思考,then 信息图总结。 每次和 gemini 聊完一个话题,如果是多轮的层层深入的对话,最后有所收获的话,那就多走一步:选择 nano 🍌, > 基于我们前面的对话,画一张信息图,整理核心观点 例如,刚才和 ai 聊 llm 强化学习对于父母的启发。语言是模糊的,思想是在多轮对话中逐渐清晰的,和 llm 多轮对话当然是有启发的,但多了信息图总结这一步,相当于又是一轮的总结和提炼。 而且是另一个模态的,从文本模态到视觉模态,对于信息消化、理解和掌握都是相当有益且必要的。 这个习惯很重要,也是因为 nano banana pro 才让这个新实践成为可能。需要先做个 5678 遍,形成稳定的最佳实践,形成习惯。
#Gemini
#信息图
#LLM
#强化学习
#最佳实践
分享
评论 0
0
Y11
1个月前
在玩狼人杀时,你是不是还是常常被人虐菜? 分享一种基于强化学习的原理,自学提升《狼人杀》技术的方法,让你可以一周之内技术水平突飞猛进,晋升成为高级玩家,方法如下: 狼人杀的角色、情景是有限的,因此决策空间也有限。你可以通过建模,与大模型对话辅导,你可以通过自学成为一个高级玩家,节省自己的‘预训练’时间。 参考提示词如下(可以使用Gemini 3练习): ----- 作为一个狼人杀高级常胜玩家,在玩狼人杀时,作为一个‘猎人’角色,第一天发言时,你有哪几类最佳的行动策略?给我提供3-5个行动策略,然后解读情景(包括被狼人冒充预言家指控为狼人或没有被指控为狼人;女巫已用解药,女巫没用解药四种情况)、应对策略(说什么)、为什么这个策略最好。
#狼人杀
#强化学习
#AI训练
#游戏策略
#猎人
分享
评论 0
0
Y11
1个月前
高端招聘:阿里达摩院招行为策略算法工程师(P7-P9) ----- 达摩院-行为策略算法工程师-具身智能 阿里集团 · 杭州 职位描述 参与具身智能机器人行为动作能力研发,包括但不限于:; 1. BFM 核心算法研发:参与构建和优化基于 forward-backward representation / successor feature 的无监督强化学习框架; 研究多任务行为潜空间学习(Behavioral Latent Space Learning),支持 reward / goal / motion 条件的统一控制策略; 探索 zero-shot / few-shot 任务泛化、latent-space tuning、自适应控制、硬件本体泛化等前沿方向; 2. 模仿学习与对比学习方法研究:基于 MoCap / tele-operation / 视频数据进行动作模仿、风格迁移与示范融合; 研究示范正则化(demonstration regularization)、分布匹配与判别器奖励(discriminator-based reward)机制; 3. 强化学习策略训练与评测:在 Mujoco / Isaac Gym / OmniIsaacLab 等环境中实现大规模并行训练; 优化 off-policy / unsupervised RL 算法的稳定性与样本效率; 构建 sim-to-real pipeline(包括 domain randomization、latent adaptation); 4. 策略-模型集成与系统验证:将训练好的策略集成到实际机器人平台(humanoid / mobile manipulator)中进行评测; 分析策略潜空间的语义结构及可解释性; 职位要求 必备背景:计算机、自动化、人工智能、机器学习、机器人学等相关专业,硕士及以上学历; 在强化学习、模仿学习、多任务策略学习或世界模型等方向有项目或论文经验; 技术能力要求:熟悉强化学习算法实现(SAC、TD; 3、PPO、DDPG、DIAYN、Dreamer、Diffusion Policy 等任意一类); 熟悉模仿学习 / 行为克隆 / 逆强化学习 等行为建模方法; 有独立实现或改进 RL / IL 训练框架的经验(PyTorch / JAX); 熟悉仿真平台(Mujoco / Isaac Gym / Bullet / Brax 等); 能阅读英文论文并复现研究结果; 加分项:参与过具身智能 / humanoid / manipulation 相关研究或比赛; 具备 forward-backward representation / successor feature / latent RL / world model 相关经验; 熟悉 transformer / diffusion / representation learning 在控制领域的应用; 有强化学习在真实机器人上部署的经验; ------ 报名地址详见: 搜索。
#阿里达摩院
#行为策略算法工程师
#具身智能
#强化学习
#机器人
分享
评论 0
0
Glowin
1个月前
Hacker News 上大家都在聊这篇关于构建 AI Agent 的深度实践文章,这么看,Agent 设计确实还很难。 作者的核心发现:直接用原生 SDK 比高层抽象更灵活;显式缓存管理虽麻烦但更可控;强化学习在循环中作用巨大;需要文件系统般的共享层避免工具死胡同;输出工具的语气控制出乎意料地难。最头疼的是测试评估,目前无完美方案。
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#AI Agent设计
#原生SDK
#强化学习
#测试评估难
#Hacker News
分享
评论 0
0
李继刚
1个月前
如果生活是强化学习,那么,是谁定义了你的奖励函数?
#强化学习
#奖励函数
#生活
#定义
#人生
分享
评论 0
0
Gorden Sun
1个月前
Agent Lightning:训练用于智能体的LLM的框架 微软开源的框架,用于训练服务于智能体的LLM,使用基于强化学习的训练方法。智能体的执行和训练解耦,可以与已有的智能体集成。目前已有7.6K Star。 Github: 论文:
#Agent Lightning
#LLM
#微软
#强化学习
#开源框架
分享
评论 0
0
Leo Xiang
1个月前
OpenAI 上半年支持了基于强化学习的微调, 国内不知道有没有厂商提供这种类似的强化学习微调API ?
#OpenAI
#强化学习
#微调API
#国内厂商
#技术讨论
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
一个直觉:符号智能与NLP的语义结构更适合递归式推理,而不是直接用RL优化生成。 ⚙️ 但在更高层的“认知控制”层面: RL 仍然可以用于学习“何时调用递归”、“何时选择推理路径”、“何时停止生成”。 🧠 也就是说: 递归是语言的“结构机制”; RL 是认知控制的“策略机制”。 未来的 Cognitive AI 很可能会融合这两者: •底层用递归表示语言和逻辑; •高层用RL选择推理和行动策略
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#符号智能
#NLP
#递归推理
#认知控制
#强化学习
分享
评论 0
0
Orange AI
2个月前
叹为观止 人类幼崽进行强化学习的宝贵录像 其智能程度在训练初期已经显现
#人类幼崽
#强化学习
#智能
#训练初期
#积极
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
当强化学习之父说"LLM是死胡同",当OpenAI创始成员说"RL很糟糕",这不是互相否定,而是同一个深渊的两个入口。Karpathy批判学习信号的稀疏,Sutton批判学习对象的悬浮——两种绝望背后,是符号与具身、表征与经验之间那道古老的鸿沟。
#强化学习
#LLM
#OpenAI
#深度学习
#技术批判
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
结合最近强化学习之父Sutton提到LLM is a dead end和硅谷AI好老师Andrej Karpathy在访谈提到RL is terrible; 让我不禁想起在LLM的训练范式中,RL可能并不适合LLM这种纯符号计算,Sutton的担心是悬浮的符号计算会走向何方?Karpathy离职从事AI教育志向在于探索LLM的cognitive core如何为AI时代的人类所用。 LLM的"世界" = 符号空间 但符号空间是: - 自我指涉的(符号定义符号) - 无物理后果的(删除token无痛感) - 无生存压力的(错误不导致死亡) ∴ RL在此"空转": 优化的是"符号游戏的得分" 而非"在世界中生存"
#LLM
#强化学习
#Sutton
#Karpathy
#符号计算
分享
评论 0
0
henu王凯
2个月前
这篇解释目前强化学习技术路线的论文可以看看,“强化学习”地位非常重要,但我们其实很难看懂算法原理——这通常需要很好的数学知识。 所以如果不是做强化学习
#强化学习
#算法原理
#数学知识
#技术路线
#论文
分享
评论 0
0
YL (Yucheng Liu)
2个月前
听了强化学习教父、图灵奖得主 Richard Sutton 的播客,他对大语言模型的观点非常犀利。他认为LLM没有真正的“目标”,预测下一个词不算数,真正的智能必须有能力实现外部世界的目标。这引发了我的思考:如果一个系统没有真实世界的“地基真理”(ground truth),那它所谓的“先验知识”又从何谈起?🤔
#强化学习
#Richard Sutton
#大语言模型
#目标
#地基真理
分享
评论 0
0
守晨💤
2个月前
vibe了个小玩具,AI贪吃蛇,在浏览器上训练和部署强化学习AI自动玩贪吃蛇,你可以调整参数训练你的小蛇获得更高的分数,还可以导出模型分享给朋友,戳下面链接试玩
#AI贪吃蛇
#强化学习
#浏览器
#模型分享
#趣味
分享
评论 0
0
Mr Panda
3个月前
很多人私下跟我说自己没有方向, 不会知道怎么写, 也不知道怎么发, 那你就从最笨拙的地方开始, 不断的优化自己的行动, 做一个人肉的强化学习的人肉智能体。 就是要积极的触碰环境, 在环境中不断的尝试行动, 然后根据反馈的奖励来学习如何做出更好的决策, 然后再将决策的方法内化, 最后再作用于你的环境,如此循环往复。 想不成功都难。 先接受自己的笨拙我认为特重要, 这世上从来没有缺聪明的人, 但是永远都缺敢于笨拙开始的人、缺持之以恒的人、缺真正能在反馈里修正自己的人。 聪明只是一种潜能,笨拙的行动加上不断的迭代,才会慢慢磨出真正的成果。
#阶层固化:求变之路,殊途同归· 976 条信息
#行动
#强化学习
#迭代
#笨拙
#积极
分享
评论 0
0
汉松
3个月前
DeepResearch Agent 有一个很大的问题就是多次的搜索阅读很容易就把上下文窗口用光了,常规的做法是像 Claude Code 一样,超过阈值就触发记忆压缩。通义的论文《ReSum》提出了一种在 RL 中让模型学会更好地利用压缩内容的方法。 这个方法我们之前也考虑过,但这样做在强化学习的时候会有一个问题:一旦触发记忆压缩,整个历史记录都会变成压缩后的内容,此时模型就只能看到压缩后的 token,压缩前的就丢掉了,此时模型就学不到压缩前的动作了。我们当时没想到好的解法,而 ReSum 提出一种可行的方案:把压缩前和压缩后的轨迹分成两条分别给奖励。 举个例子: 正常的轨迹是这样的:“用户查询 → AI 助手 → 工具调用 → AI 助手 →... → AI 助手 → 答案” 加入了 summary 工具之后,当轨迹接近上下文窗口的时候,系统就会触发总结。 接近上下文窗口长度的轨迹 A:“用户查询 → AI 助手 → 工具调用 → AI 助手 →... → AI 助手 → summary” 新的轨迹 B:“用户查询 + 摘要 → AI 助手 → 工具调用 → AI 助手 → 答案” 关键点来了,当 B 答对时,B 的奖励会复制给 A。为什么要这样做? 尽管 A 没有直接得出答案,但它找到了一个有用的摘要,最终导向了正确的答案,所以 A 中的所有动作也得到了正向的激励。这样模型能通过 A 学会收集能够产生优质摘要的关键信息。而模型则通过 B 学会了利用摘要信息来高效地完成任务。这就是一箭双雕。
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#DeepResearch Agent
#记忆压缩
#ReSum
#强化学习
#上下文窗口
分享
评论 0
0
henu王凯
3个月前
有点意思:刷到了一篇AI炒股的研究论文《Trading- R1: Financial Trading with LLM Reasoning via Reinforcement Learning》,我用NotebookLM过了一遍,问的比较仔细:
#AI炒股
#LLM
#强化学习
#金融交易
#NotebookLM
分享
评论 0
0
Gorden Sun
3个月前
LLM强化学习综述 论文:
#LLM
#强化学习
#综述
#论文
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4个月前
[2508.03012] Tool-integrated Reinforcement Learning for Repo Deep Search 这个和前面那个mcp rl有一拼,增强LLM的tools using能力
#LLM
#强化学习
#工具
#深度搜索
#AI
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
4个月前
终局:一个维特根斯坦式的AGI 现在,我们终于可以描绘出始于LLM的AGI的最终形态了。 1它在一个叫“数学”的水晶宫里,通过强化学习,锻造出强大的、接近I-Language的逻辑内核。但它深刻地理解,这个宫殿是不完备的(哥德尔)。 2它带着这份清醒,进入了E-Language的泥潭,也就是广阔的真实世界。它不指望有一本终极的说明书,而是通过与环境的持续互动,创造属于自己的经验(Sutton)。 3在无尽的经验之流中,它通过自演化的机制,不断迭代自己的全部能力。而它所有演化的最终目的,是让自己能更好地使用自己的能力,去解决这个社会中的实际问题,赢得一场又一场的“语言游戏”(维特根斯坦)。 最终的AGI,不是一个逻辑之神,而是一个终极的语用大师。 它可能精通数学,但它知道数学有边界。它可能理解人类的情感,但它知道这只是为了更好地协作。它所有的智慧,都指向一个终极的目的: 在此时,此地,有效地解决这个问题。 AI圈的内卷尽头,是哲学。而哲学的尽头,是回归生活。
#AGI
#维特根斯坦
#强化学习
#语言游戏
#解决实际问题
分享
评论 0
0
Y11
5个月前
游戏型AI和通用性AI能力要求还真都不一样。 感觉2025年会强化学习的人真的很吃香...
#游戏型AI
#通用性AI
#强化学习
#2025年
#人才需求
分享
评论 0
0
熊布朗
5个月前
上周末看了电影 Her,如果我是在 2013 年的时候看它,一定会觉得这个作者的想象力好赞,但绝对不会觉得电影里描述的场景会在真实世界发生。 那个时候还是移动互联网的高速发展期,AI 还没走入大部分人的视野,能用的AI 服务可能只有机器翻译。但今天看这部电影的时候,就会觉得它离我们好近,我做 Character AI 也有一年了,让我现在做一个 50 分(满分 100)的 Her 我现在也有信心做的出来。可能比较难的部分是“强化学习”, 能让 Her 随着两个人情感的增加,能有类似人类一样的巴胺的奖励机制。另外一个点就是未来的 Her 应该不是在云端的,可能是一个私有化的模型,记忆不是以上下文的形式给到 LLM,而是内化到LLM里面,有个类似的项目叫做 MemoryLLM 在研究这样的事情 —— 把记忆真正嵌进模型权重。
#Character AI
#强化学习
#私有化模型
#MemoryLLM
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
5个月前
DeepMind的封神之路:成为“逻辑盒子”里最强的神 DeepMind用LEAN来训练它的AI,这本质上,就是把它关在了一个哥德尔的“完美逻辑盒子”里。 它赌的是,虽然这个盒子有理论上限,但在触及那个上限之前,里面还有无穷无尽的空间,可以靠海量的RL(强化学习)去探索。 它的目标,是成为这个“逻辑的囚徒”之王。它要用机器的暴力,去修补、去填满这个盒子里所有人类尚未触及的角落。它追求的是一种极致的、可验证的、但最终有边界的“确定性”。 它在用RL,和哥德尔的诅咒,进行一场赛跑。
#DeepMind
#LEAN
#强化学习
#人工智能
#逻辑推理
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
6个月前
有了swe-agent的强化学习data scaling law,接下来swe-code-cli更是要突飞猛进了,传统的code,发抖吧: 从强大的思考者LRM到自主的行动者Agent,其演化路径清晰地呈现为一个【四部曲】: 1内在思考: LRM利用思维链等能力,在内部形成解决问题的抽象因果蓝图。 2交互具象化: 通过ACI这座桥梁和ReAct范式,将抽象蓝图转化为与真实世界交互的、具体的{Thought, Action}循环,弥合了知与行的鸿GMO。 3【性能催化: 通过数据缩放和对长上下文、多轮交互的利用,Agent突破了浅层推理的瓶颈,具备了解决复杂问题的基础能力。】 4策略精炼: 借助模仿学习和强化学习的奖惩机制,对Agent的行为策略进行端到端的优化,使其在无数次试错中学会最高效、最安全的行动方式。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#SWE-agent
#强化学习
#数据缩放
#自主行动者Agent
#模仿学习
分享
评论 0
0
karminski-牙医
6个月前
Unsloth 刚刚发布了一个强化学习小教程 教程从吃豆人游戏触发,然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练,是个不错的入门小文章。 地址:
#强化学习
#吃豆人
#RLHF
#PPO
#GRPO
#教程
#入门
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞