时政
财经
科技

#reasoning

马东锡 NLP 🇸🇪
马东锡 NLP 🇸🇪
2025-05-28 05:30:57

「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能,就得重新思考:到底是RL在学习,还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned d

#RLVR#SpuriousRewards#DeepLearning
马东锡 NLP 🇸🇪
马东锡 NLP 🇸🇪
2025-05-01 03:38:52

「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符,sorry,除了硬核,无法可说。 DeepSeek这篇在reasoning的追求上,到了一个让

#DeepSeek#reasoning
马东锡 NLP 🇸🇪
马东锡 NLP 🇸🇪
2025-04-22 04:30:13

「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch,充满了 ReAct 的影子。它教会模型“何时求助于世界”;但局限在于,ReSearch 只能依赖一种工具。 作者提出了一种创新的框架,名为 ReSearch,旨在

#agent#RAG#reasoning
马东锡 NLP 🇸🇪
马东锡 NLP 🇸🇪
2025-04-14 04:26:54

「LLM, Reasoning」论文: (How) Do reasoning models reason? “真正的智能,是让模型在生成时就做出正确选择,而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati,我不完全同意他,但我很喜欢他。2024年ACL Keynote,他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子,但并

#LLM#reasoning#智能
马东锡 NLP 🇸🇪
马东锡 NLP 🇸🇪
2025-04-02 06:34:00

「LLM, Agent, RL的关系」 在LLM的语境下,Agent是能理解问题,自主进行推理(Reasoning),并采取行动的系统。你可以把它想象成一个非常聪明的助手,当你提出复杂问题时,它不会立即给出答案,而是会在内心进行推理和规划(Planning),再给出最终决定。 如果我们回顾prompt engineering中提高LLM Reasoning能力的方法,如Self-Consis

#LLM#agent#RL
马东锡 NLP 🇸🇪
马东锡 NLP 🇸🇪
2025-03-20 22:59:17

更强的reasoning, 更好的Agent 论文分享: Thinking Machines: A Survey of LLM based Reasoning Strategies 在我们开发Agent的项目的时候,需要 更好的LLM reasoning的能力,以获得更高的任务完成准确率。 那么有哪些方法可以增强LLM的reasoning能力呢? 沿着之前我分享的Testing time s

#reasoning#LLM#agent
没有更多了 🤐