时政

财经

科技

#reasoning

马东锡 NLP 🇸🇪

2025-05-28 05:30:57

「RLVR, Reasoning」 Spurious Rewards: Rethinking Training Signals in RLVR 当随意的奖励信号仍可以大幅提升模型性能，就得重新思考：到底是RL在学习，还是在放大某种“先验”行为。 "RLVR must somehow be surfacing useful reasoning representations learned d

#RLVR #SpuriousRewards #DeepLearning

马东锡 NLP 🇸🇪

2025-05-01 03:38:52

「DeepSeek, Reasoning」论文 DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition 用"sorry"做占位符，sorry，除了硬核，无法可说。 DeepSeek这篇在reasoning的追求上，到了一个让

#DeepSeek #reasoning

马东锡 NLP 🇸🇪

2025-04-22 04:30:13

「Agent, RAG, Reasoning」论文 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning ReSearch，充满了 ReAct 的影子。它教会模型“何时求助于世界”；但局限在于，ReSearch 只能依赖一种工具。作者提出了一种创新的框架，名为 ReSearch，旨在

#agent #RAG #reasoning

马东锡 NLP 🇸🇪

2025-04-14 04:26:54

「LLM, Reasoning」论文： (How) Do reasoning models reason? “真正的智能，是让模型在生成时就做出正确选择，而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati，我不完全同意他，但我很喜欢他。2024年ACL Keynote，他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子，但并

#LLM #reasoning #智能

马东锡 NLP 🇸🇪

2025-04-02 06:34:00

「LLM， Agent, RL的关系」在LLM的语境下，Agent是能理解问题，自主进行推理（Reasoning），并采取行动的系统。你可以把它想象成一个非常聪明的助手，当你提出复杂问题时，它不会立即给出答案，而是会在内心进行推理和规划（Planning），再给出最终决定。如果我们回顾prompt engineering中提高LLM Reasoning能力的方法，如Self-Consis

#LLM #agent #RL

马东锡 NLP 🇸🇪

2025-03-20 22:59:17

更强的reasoning，更好的Agent 论文分享： Thinking Machines: A Survey of LLM based Reasoning Strategies 在我们开发Agent的项目的时候，需要更好的LLM reasoning的能力，以获得更高的任务完成准确率。那么有哪些方法可以增强LLM的reasoning能力呢？沿着之前我分享的Testing time s

#reasoning #LLM #agent

没有更多了 🤐