2025-03-14 19:42:24

马东锡 NLP 🇸🇪
从 Chain of Thought 到 aha moment和wait,看大模型的 test time scaling和深度思考 大模型们在过去的一年,都有了自己的deep search, think, reasoning, 深度思考...等关键词或者产品。 作为NLP从业者,我都会禁不住问自己,这都是些啥...😅今天就来解读这个问题,这些产品的所有本质,来自一个学术词汇,即test time scaling。 回归的第一篇,从test time scaling的角度,缕一遍从OpenAI o1 到DeepSeek R1, 从chain of thought,到所谓的aha moment。 最后,以一篇论文结束,谈谈如何微调来获得私域深度思考模型。
相关信息
2025-03-11 22:47:52
用9万块的 Mac Studio 跑本地大模型。看一下飞猪是怎么玩的。⬇️
2025-03-09 09:34:05
“OpenAI的计划是从GPT-5开始,把直觉模型和思考模型统一起来,由系统自己决定是否开启深度思考。” 有意思,真的从人大脑运作角度统一起来了。 系统1:快思考,传统大模型(GPT4.5、Deepseek V3 ) 系统2:慢思考,推理模型(O1-pro、Deepseek R1) 脑科学和计算机科学,互相启发~
2025-03-08 12:09:48
彭博社:风向变了!硅谷投资人不再迷恋大模型,而是追捧“AI 应用” 最近,硅谷风向变了。 就在不久前,OpenAI、Anthropic 这样的 AI 大厂还备受投资人追捧,每年投入数十亿美元打造先进的人工智能大模型(LLMs)。相比之下,像 Harvey 这样的“小玩家”当时并不起眼,只能在巨头开发的模型基础上,做一些简单的应用,比如帮助律师更好地使用 AI。 Harvey 的 CEO 温斯
2025-03-07 23:52:23
GPT-4.5 的多模态还是挺强的
评论 0