马东锡 NLP 🇸🇪2025-04-14 04:26:54「LLM, Reasoning」论文: (How) Do reasoning models reason? “真正的智能,是让模型在生成时就做出正确选择,而不是事后去验证哪个选项是对的。” 作者Subbarao Kambhampati,我不完全同意他,但我很喜欢他。2024年ACL Keynote,他批评当前对 Chain of Thought 的信仰如同宗教。——我们喜欢看到推理的样子,但并
徒步的骑手2025-04-13 06:09:00😂这种拿把霰弹枪朝天乱放,看能打下几只鸟来的做法,最后铁砂将落到他自己头上,鸟打不着几只。他还会改,直到把口袋改成网兜。 Smartphones, laptop computers, memory chips and other electronics will be exempt from President Trump’s sweeping tariffs on China
iPaul2025-04-12 23:51:38前门征税,后门豁免,川普关税闹剧,噱头有多少😎 美国宣布对手机/PC/服务器/半导体/无线通信设备等产品中的“美国成分”不加征额外关税。 海关和边境保护局发布公告,宣布对美国政府于2025年4月2日发布的征收进口商品应缴纳的额外关税行政命令,以及4月7日及4月9日发布的关税相关行政令进行进一步指导。 其中就包括了对于计算机、服务器、智能手机、 打印机 、半导体制造设备、无线通信设备(如基站、
马东锡 NLP 🇸🇪2025-04-04 17:33:30「LLM x RL」DeepSeek 最新论文:Inference-Time Scaling for Generalist Reward Modeling 在 RL 中,Reward Modeling(RM)是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分,从而调整 LLM 的 policy,使其更符合 RM 设定的要求,比如更强的 reasoning 能力。 针对特定任务(