Gorden Sun
1周前
Agent Lightning:训练用于智能体的LLM的框架 微软开源的框架,用于训练服务于智能体的LLM,使用基于强化学习的训练方法。智能体的执行和训练解耦,可以与已有的智能体集成。目前已有7.6K Star。 Github: 论文:
Leo Xiang
1周前
OpenAI 上半年支持了基于强化学习的微调, 国内不知道有没有厂商提供这种类似的强化学习微调API ?
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2周前
一个直觉:符号智能与NLP的语义结构更适合递归式推理,而不是直接用RL优化生成。 ⚙️ 但在更高层的“认知控制”层面: RL 仍然可以用于学习“何时调用递归”、“何时选择推理路径”、“何时停止生成”。 🧠 也就是说: 递归是语言的“结构机制”; RL 是认知控制的“策略机制”。 未来的 Cognitive AI 很可能会融合这两者: •底层用递归表示语言和逻辑; •高层用RL选择推理和行
Orange AI
2周前
叹为观止 人类幼崽进行强化学习的宝贵录像 其智能程度在训练初期已经显现