马东锡 NLP 🇸🇪2025-04-04 17:33:30「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务(
勃勃OC2025-04-04 14:20:27我本来以为,马斯克的参与可能让美国政府在政策计划时多一天智能和AI的决策 结果没想到,马斯克所谓的“智商”,在特朗普政府里面是一点也没用上 又或者说 他本来,就没有智商???