宝玉2025-03-04 08:59:12GPT-4.5 会带来推理模型的升级 想象一下,每个 AI 模型都是一名努力学习的学生。每个学生的能力有高有低,有的懂得多,有的懂得少。这张图片就像是一场考试的成绩单,展示了不同的“学生”(模型)在高难度考试(GPQA基准测试,类似博士水平的知识问答)中的表现。 在图片中,我们能清楚看到: - 最底层的基础模型(Base Models),类似于那些还没学会“如何思考”、只掌握了大量知识却不善于运#GPT-4.5#推理模型#AI升级
九原客2025-03-01 23:07:53最近两三周给很多客户反复提及的忠告: 用模型一定要用最好的那个,如果想省钱,请在你的场景下微调,而不是用一个低能力的通用模型,然后试图靠 Prompt 或者工程努力去拯救它。 比如 DeepSeek 的那一堆蒸馏模型是很好的场景级推理模型的Base,但是不要直接用,真的很差。#模型选择#微调#场景应用
向阳乔木2025-02-27 17:11:39如果真想只记住一个Prompt框架,未来快速套用的话,推荐RTF,简单清晰实用: 角色(Role)- 任务(Task)- 格式(Format) 在优秀推理模型中,甚至角色都不用设定。 直接描述你的任务(Task)和输出格式(Format)即可 简化成TF模型,记忆点是“TF boy?”#Prompt框架#RTF#推理模型
StLi2025-02-14 06:11:31OpenAI发布如何运用推理模型的官方最佳实践,非常富有参考价值。 使用Deep Research围绕这篇指南做了一个泛化分析,将议题扩展到推理模型的普遍性使用技术。 看了报告,真的是获益良多。以下是报告摘要: OpenAI的推理类模型(如O1、O3)遵循一系列最佳实践,包括清晰简洁的提示、避免多余的链式推理指令、使用结构化输入、提供必要的背景信息等。模型擅长逻辑推理、数学运算和代码分析,并#OpenAI#推理模型#最佳实践
yesterday2025-02-13 13:31:17AI coding 的时候,如果想用推理模型,有条件尽量还是 o1 . 不用推理尽量还是 claude sonnet 3.5 . 这个黄金组合搭配到目前为止还没有一个能动摇的(你有 o3 的话也行) 我知道是人都想省点钱,我也会切换别的模型,但哪怕是 deepseek 满血版,在多个文件里跳来跳去,该出的错,那可怕的幻觉还是一个都不会少。 你不怕麻烦可以开一堆窗口,结合着用。想省事,提高效#AI#推理模型#DeepSeek
Yangyi2025-02-11 13:05:49Gemini进一步强化推理模型! 可以检索Youtube/Google map/Google search! 以下是我的一些测试实验🧵 预览#Gemini#强化#推理模型
向阳乔木2025-02-11 11:03:46前段时间Deepseek大火时,谷歌工程师酸酸的说,自家有最更好的推理模型,只是在AI studio,大家没发现。 一堆人回复他说,那你放出来啊,光说有啥用。 这两天,谷歌终于都在Gemini上线了,面向C端用户。 一会儿试试这个跨Youtube、谷歌地图和搜索的模型有多厉害。 预览#DeepSeek#谷歌#推理模型
nazha2025-02-10 20:29:55#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero 仅通过强化学习而没有初始 #DeepSeekR1#推理模型#训练方法
宝玉2025-02-08 08:20:45推荐阅读:如何更好的为 OpenAI o1 这样的推理模型写提示词? 去年 OpenAI 发布 o1 这样的推理模型,接着 DeepSeek 也发布了 DeepSeek R1 推理模型,推理模型和传统的生成式语言模型的差别在于,传统的生成式语言模型在收到 Prompt 后就会马上生成,如果生成出现错误或者质量不好,是没机会纠正的,只能继续生成下去或者后续纠正继续生成,但是推理模型可以在向用户输出#OpenAI#提示词#推理模型
向阳乔木2025-02-07 23:48:44Deepseek R1、ChatGPT O1、Gemini Flash thinking等推理模型,确实能做的事情变多了。 比如约几个朋友吃饭,一般要根据地理位置、有空的时间来安排聚餐计划。 非推理模型,这种任务给的答案普遍不算理想,且看不到推理过程,会有不信任感。 推理模型哪怕结论不靠谱,也能看思考过程,同样有价值。 #推理模型#AI技术
九原客2025-01-02 03:00:02Things we learned about LLMs in 2024 中我深有同感的: 1. GPT-4的垄断地位被打破。 2. LLM 价格指数式下降。 3. Prompt驱动的应用已经可以商业化。 4. Agents 还没有出现(出现的只是Prompt驱动的Workflow)。 5. 以o1为代表的推理模型开始出现。 6. 合成数据效果很好,事实上目前大部分模型的SFT数据都是合成的,预#GPT-4#垄断地位#价格下降
宝玉2024-12-29 06:05:35网友分享: 你好宝老师,我想投稿大模型的使用体验。我是理工科,国内土博,材料专业。使用强度不是很高,但是集中分析的时候会连续追问和讨论。 关于推理模型,我想说说我的使用体验。我使用的较多的时gpt o1,O1mini,还有谷歌的新出的thinking。 我想说o1目前还是当之无愧的第一,因为具有很庞大的知识库。我使用都是在分析化学的情况下,比如红外图谱和核磁图谱的分析。然后O1是说的最靠谱。我#大模型#GPT#O1