#推理模型

2个月前

好文推荐： Critique of Pure Reasoning Models 纯粹推理模型的批判虽然有点晚了，这个应该是苹果发论文批驳推理模型的时候写的（

#苹果 #推理模型 #批判 #论文 #AI

3个月前

MiniMax-M1：MiniMax开源的推理模型分80K和40K两个版本，这里的80K和40K是指推理消耗的最大token数。456B总参数，激活参数45.9B。评分超过旧版DeepSeek R1和Qwen3-235B-A22B。在线使用：模型： Github：

MiniMax M1发布：开源长上下文推理模型引发AI领域震动· 10 条信息

#MiniMax #开源模型 #推理模型 #DeepSeek R1 #Qwen3-235B-A22B #人工智能

3个月前

呼应下之前推荐的关于港大马毅评价推理模型其实不是真正在推理的点（如果没看过原文，非常推荐细读一下，有助于理解大模型的本质。马毅教授是从学界、从经验推理论证目前的推理模型不是真正在推理，实际上还是模仿，本质上还是概率逻辑，苹果机器学习研究中心是直接实际测试了下

#港大马毅 #推理模型 #大模型 #概率逻辑 #苹果机器学习 #学界观点 #经验推理 #模仿 #实际测试

5个月前

一个 ChatGPT / Gemini 的实用技巧：检索并提取部分 PDF 内容 ChatGPT 和 Gemini 应该都内置了 PDF 工具，可以读取 PDF 内容，也可以帮你检索。如果你选的是推理模型的话（o3/o4-mini/Gemini 2.5 pro等）由于它们都有推理能力，所以可以对 PDF 先进行检索，然后去提取。当然太长了也不行，毕竟受限于上下文窗口长度。比如我有个 400 多页的 PDF 文件，没有哪个 LLM 能正常提取完整内容，但是你可以让它： > 帮我找出来这个PDF中有关教育方面的章节，并将这个章节的内容提取成 Markdown 或者你也可以： > 帮我翻译这个PDF169到171页的内容，保持图表不变，输出为Markdown格式这个任务 Gemini 结果还要好一些，但 Claude 有点拉跨

#ChatGPT #Gemini #PDF工具 #推理模型 #检索 #提取

6个月前

要根据任务来确定用推理模型还是直觉模型。也需要根据任务类型，选择是否联网。有时联网，被语料污染，反而不如不开。

#推理模型 #直觉模型 #联网 #语料污染

6个月前

GPT-4.5 会带来推理模型的升级想象一下，每个 AI 模型都是一名努力学习的学生。每个学生的能力有高有低，有的懂得多，有的懂得少。这张图片就像是一场考试的成绩单，展示了不同的“学生”（模型）在高难度考试（GPQA基准测试，类似博士水平的知识问答）中的表现。在图片中，我们能清楚看到： - 最底层的基础模型（Base Models），类似于那些还没学会“如何思考”、只掌握了大量知识却不善于运用的学生。他们的成绩一般较低，比如： * GPT-3.5 得分只有28%，就像一个知识储备不足的学生。 * GPT-4o 稍强一些，有49%的成绩。 * 而最新的 GPT-4.5 更厉害，达到69%，比GPT-4o提升了整整20个百分点。这意味着 GPT-4.5 本身掌握的知识已经非常丰富，基础扎实。 - 右侧则是经过推理训练后的推理模型（Reasoning Models），也就是给这些“学生”增加了高效思考、分析和推理的能力，让他们能够更灵活、更聪明地解决复杂问题： * GPT-4.5 加上推理能力后，成绩瞬间飙升至85%~95%，展现出超凡的潜力。 * 原本基于 GPT-4o 的推理模型（如图中o1-mini、o3-mini）虽然也进步显著，但最终成绩（77%左右）显然不如基于 GPT-4.5 的潜力巨大。为什么基础能力（Base）这么重要呢？就好像一个学生，如果基础知识足够扎实，思考问题时才会更加深入准确。如果基础不牢，就算他再怎么聪明，也很难回答那些他根本没学过的知识——比如一个完全没学过古希腊历史的学生，即使逻辑推理再好，也答不出苏格拉底的哲学思想。由此我们可以推测，未来以 GPT-4.5 为基础建立的新一代推理模型，将达到前所未有的高水平，很可能将所有现有的高难度测试（比如PhD博士级的问题）都完美“攻克”，实现史无前例的突破。这也许就是 GPT-5，或者类似 GPT-4.5-o 系列的模型，将在不久的将来让我们惊艳。简单说来，GPT-4.5 就是一个极具天赋的“优等生”，只等着训练出顶尖的推理能力，一飞冲天！图源：见图片底部

#GPT-4.5 #推理模型 #AI升级 #模型性能 #GPQA

6个月前

最近两三周给很多客户反复提及的忠告：用模型一定要用最好的那个，如果想省钱，请在你的场景下微调，而不是用一个低能力的通用模型，然后试图靠 Prompt 或者工程努力去拯救它。比如 DeepSeek 的那一堆蒸馏模型是很好的场景级推理模型的Base，但是不要直接用，真的很差。

#模型选择 #微调 #场景应用 #Prompt #工程努力 #DeepSeek #蒸馏模型 #推理模型

7个月前

如果真想只记住一个Prompt框架，未来快速套用的话，推荐RTF，简单清晰实用：角色（Role）- 任务（Task）- 格式（Format）在优秀推理模型中，甚至角色都不用设定。直接描述你的任务（Task）和输出格式（Format）即可简化成TF模型，记忆点是“TF boy？”

#Prompt框架 #RTF #推理模型 #TF模式 #技术推荐

7个月前

OpenAI发布如何运用推理模型的官方最佳实践，非常富有参考价值。使用Deep Research围绕这篇指南做了一个泛化分析，将议题扩展到推理模型的普遍性使用技术。看了报告，真的是获益良多。以下是报告摘要： OpenAI的推理类模型（如O1、O3）遵循一系列最佳实践，包括清晰简洁的提示、避免多余的链式推理指令、使用结构化输入、提供必要的背景信息等。模型擅长逻辑推理、数学运算和代码分析，并可通过自我一致性、多次采样、工具调用等优化策略提升准确性。与之竞争的DeepSeek R1采用强化学习训练，具有类似的链式推理能力，在逻辑、数学和代码任务上表现接近O1。两者各有优劣，OpenAI模型推理深度更强，DeepSeek R1则以开源和成本效益见长，但推理速度较慢。推理类模型已广泛应用于金融、医疗、法律等行业。例如，在金融分析中，它可处理复杂财务数据；在医疗领域，可辅助医生推理诊断；在法律行业，能进行案例分析和法律文书生成。然而，这些应用仍受准确性、合规性、安全性等因素限制，需结合人工审核和外部工具以确保可靠性。随着模型技术不断进步，推理类AI将在各行业发挥更大作用，但仍需慎重使用，确保其输出可信赖且符合行业标准。

#OpenAI #推理模型 #最佳实践 #Deep Research #技术分析 #o1模型 #O3模型

7个月前

AI coding 的时候，如果想用推理模型，有条件尽量还是 o1 . 不用推理尽量还是 claude sonnet 3.5 . 这个黄金组合搭配到目前为止还没有一个能动摇的（你有 o3 的话也行）我知道是人都想省点钱，我也会切换别的模型，但哪怕是 deepseek 满血版，在多个文件里跳来跳去，该出的错，那可怕的幻觉还是一个都不会少。你不怕麻烦可以开一堆窗口，结合着用。想省事，提高效率，最好还是o1 + sonnet 3.5 ，明显省很多事。有多省呢？你如果像我一样连续编码 3 小时，你换别的模型，你会发现很可能直接 4-5 个小时去了。一点不夸张。

#AI #推理模型 #Claude Sonnet 3.5 #DeepSeek #O1 #效率 #模型选择 #幻觉

7个月前

Gemini进一步强化推理模型！可以检索Youtube/Google map/Google search！以下是我的一些测试实验🧵

#Gemini #强化 #推理模型 #检索 #YouTube #Google Map #Google Search #测试实验

7个月前

前段时间Deepseek大火时，谷歌工程师酸酸的说，自家有最更好的推理模型，只是在AI studio，大家没发现。一堆人回复他说，那你放出来啊，光说有啥用。这两天，谷歌终于都在Gemini上线了，面向C端用户。一会儿试试这个跨Youtube、谷歌地图和搜索的模型有多厉害。

#DeepSeek #谷歌 #推理模型 #AI Studio #Gemini #C端用户

7个月前

#分享从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时，也没有使用使用接受人类偏好的奖励模型，而是采用了准确性（用 LeetCode 编译器来验证代码结果，以及一个确定性系统来验证数学答案）和格式奖励（将模型的思考过程强制包裹在 `<think></think>` 之间）。 3. SFT + RL DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动（Cold Start）数据。使用此冷启动的数据，DeepSeek 通过 SFT 微调了该模型，然后是另一个 RL 阶段。为了防止 Language Mixing 的问题，在 RL 阶段引入了语言一致性奖励。 4. SFT + 蒸馏与传统的模型蒸馏不同，DeepSeek 在小模型上（比如 Llama 8B、70B，Qwen 2.5 models）通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据，对小模型进行了微调。其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱，但和 DeepSeek-R1-Zero 差不多。进一步，小模型纯 RL 和蒸馏的效果如何？DeepSeek 使用了 Qwen 32B 的模型作为作为对比。有趣的结果是，对于小模型蒸馏比 RL 要更有效。

#DeepSeekR1 #推理模型 #训练方法 #计算资源 #CoT #强化学习

7个月前

推荐阅读：如何更好的为 OpenAI o1 这样的推理模型写提示词？去年 OpenAI 发布 o1 这样的推理模型，接着 DeepSeek 也发布了 DeepSeek R1 推理模型，推理模型和传统的生成式语言模型的差别在于，传统的生成式语言模型在收到 Prompt 后就会马上生成，如果生成出现错误或者质量不好，是没机会纠正的，只能继续生成下去或者后续纠正继续生成，但是推理模型可以在向用户输出内容之前，会先输出思维脸（Chain of Thought），对输入的 Prompt 思考验证完成后，再开始生成，这样可以保证有更好的质量，在 o1 中，OpenAI 因为怕别人偷了了他们的推理数据，所以可以隐藏了思维链的输出内容，但是 DeepSeek 的完整思考过程是可以直接看到的。说回来提示词（Prompt），既然推理模型自己就会做思维链，这意味着以前在提示词中加入思维链的方式已经没必要了，因为大多数时候推理模型自己写的思维链质量就很好了。另外大部分时候也不需要复杂的角色扮演、示例，因为由于思维链的存在，推理模型的“智能”程度高了很多，不需要角色设置、示例也能很好的理解和跟随指令。所以到了推理模型，已经不需要太复杂的提示词模板，大多数时候简单的提示词就可以很好的效果，但上下文（背景信息）依旧很重要。微软的工程师写了一篇文章《Prompt Engineering for OpenAI’s O1 and O3-mini Reasoning Models》，详细说明了在给推理模型写提示词应该注意的问题，一个总结了 9 个点： 1. 保证提示清晰且具体明确说明你想让模型完成什么。避免不相关的信息。如果问题复杂，可直接简要陈述，不要同时抛出多个话题或做过多背景描述。 2. 必要的上下文要提供，不相关的要省略包含模型所需的领域信息或数据（如案例、事实），因为模型未必具备最新或小众知识；但别堆砌与任务无关的材料或一堆示例，以免干扰。 3. 尽量零示例或极少示例优先采用零示例模式。只有当模型理解有误或者格式不对时，才加入简短的示例作为演示。O1/O3 本身不需要像旧版 GPT 那样大量示例来引导。 4. 使用 System/Developer 指令定位角色与风格比如「你是一位法律分析师」，或「请做一名数学老师给学生讲解」，从而设置合适的专业度和语气；再如「请用条列式列出答案」，指定输出结构。 5. 通过指令控制回答长度与详细程度若要简短回答，就写「限一段话内给出结论」；若要详细分析，就写「请详述你的推理过程」。O1 默认会倾向详尽，但你可以覆盖该默认。 6. 在 O3-mini 上使用“推理努力程度”参数（若 API 允许）根据任务需求设置低/中/高，以在速度与准确性之间做平衡。 7. 避免重复的“逐步思考”指示不必告诉 O1/O3「让我们一步步思考」，因为它们已在内部做链式推理；这类指令对 GPT-4o 更有效。只有当你想要输出“所有中间步骤”时才额外声明。 8. 测试和迭代如果初始回答不理想，可以改变提示表述或更精确地说明需求。虽然 O1/O3 通常一次就能给出高质量解答，但微调提示仍能进一步提升可读性或输出形式。 9. 对重要结论做验证对于需要高可靠度的回答，可进行追问或多次查询，并对比不同答案或让模型自检，以增强对结果的信心。即便是 O1 也有可能出错，务必审慎使用。

#OpenAI #提示词 #推理模型 #DeepSeek #生成式语言模型

7个月前

Deepseek R1、ChatGPT O1、Gemini Flash thinking等推理模型，确实能做的事情变多了。比如约几个朋友吃饭，一般要根据地理位置、有空的时间来安排聚餐计划。非推理模型，这种任务给的答案普遍不算理想，且看不到推理过程，会有不信任感。推理模型哪怕结论不靠谱，也能看思考过程，同样有价值。

#推理模型 #DeepSeek R1 #ChatGPT O1 #Gemini Flash #AI技术 #聚餐计划 #信任感 #技术发展

8个月前

Things we learned about LLMs in 2024 中我深有同感的： 1. GPT-4的垄断地位被打破。 2. LLM 价格指数式下降。 3. Prompt驱动的应用已经可以商业化。 4. Agents 还没有出现（出现的只是Prompt驱动的Workflow）。 5. 以o1为代表的推理模型开始出现。 6. 合成数据效果很好，事实上目前大部分模型的SFT数据都是合成的，预训练数据也经过了精心过滤。 7. 社会上不同的人群对大模型的认知差距十分巨大，可能会带来新的数字鸿沟。 8. 长上下文很重要，激发了很多可能性。(没有长上下文，cursor 是不会出现的，只有代码补全）

#GPT-4 #垄断地位 #价格下降 #Prompt驱动 #商业化 #Agents #推理模型 #合成数据 #SFT数据

9个月前

网友分享：你好宝老师，我想投稿大模型的使用体验。我是理工科，国内土博，材料专业。使用强度不是很高，但是集中分析的时候会连续追问和讨论。关于推理模型，我想说说我的使用体验。我使用的较多的时gpt o1，O1mini，还有谷歌的新出的thinking。我想说o1目前还是当之无愧的第一，因为具有很庞大的知识库。我使用都是在分析化学的情况下，比如红外图谱和核磁图谱的分析。然后O1是说的最靠谱。我结合文献和O1聊我的推理，基本就能把图谱分析的七七八八差不多。但是o1mini不精通化学结构导致理解不了复杂化学结构，谷歌的thinking也一样对化学不够精通，比如今天核磁分析时就弄混了ppm高低和上下场的关系。而o1可以一直正确的分析推理。以我的认知我认为，知识库的丰富程度极大程度决定了好用与否。最近新出的推理模型，由于缺乏知识库，测试发现推理的化学结果大部分都不对。目前我只有用o1的时候很少发现错误。所以可能高成本的模型还是更有实际价值，而针对推理方面雕花的可能还是炫技更多一些。

#大模型 #GPT #O1 #O1mini #谷歌thinking #推理模型 #材料专业 #分析化学 #红外图谱 #核磁图谱