九原客2025-03-13 17:31:56目前我日常使用的模型(非广告~) (日常用): - (Grok3 真的很好) - (Qwen2.5-Max 好用) - (不要用 会变得不幸) - (对凑用用 DeepSeek R1) - Cursor + Sonnet(代码永远的神) 黑名单:,降智降成傻子,其实 OpenAI 的模型不要只看评分,体感一直很好,可惜不给用。 (API 用): - (测试各种奇怪的模型,没必要自己#模型#Grok3#Qwen2.5-Max
九原客2025-03-01 23:07:53最近两三周给很多客户反复提及的忠告: 用模型一定要用最好的那个,如果想省钱,请在你的场景下微调,而不是用一个低能力的通用模型,然后试图靠 Prompt 或者工程努力去拯救它。 比如 DeepSeek 的那一堆蒸馏模型是很好的场景级推理模型的Base,但是不要直接用,真的很差。#模型选择#微调#场景应用
九原客2025-02-18 17:01:17DeepSeek 满血版在国产硬件上贫瘠的推理性能基本告别生产级应用。 四台8卡晟腾910B 单用户推理速度才10+ tokens/s,花五百万就买个这?#DeepSeek#国产硬件#推理性能
九原客2025-02-01 19:42:28杨立昆锐评某些硅谷公司(deepseek 翻译) —— - 硅谷某些圈子中的一种常见病:一种错位的优越感。 - 晚期症状:认为自己的小团体垄断了好主意。 - 末期症状:认为来自他处的创新是通过欺骗手段获得的。 科技进步在更多有才华的人参与并*分享*他们的创新时发展得更快。 事实上,这就是原因: - 科学界围绕出版物和工具共享进行组织 - 开发者社区围绕开源组织 - 专利制度存在(尽管对于软件#硅谷#科技创新#优越感
九原客2025-01-28 14:49:24国内大模型玩家小评: 智谱:技术很不错,专攻ToB、ToG,但是新公司想踩透ToB的弯弯绕,得先吃点亏。 讯飞:垃圾模型,但是讯飞在国资委很有影响力,应该还能拿单。 阿里:Qwen 持续开源领先,ToB 躲在后面让集成商中标干苦力活。 腾讯:反正外面没人用,开源了捧个人场。 字节:豆包主要还是服务自家 ToC 场景,API 赚不到钱也没什么人用。 百度:专心做ToC 场景吧,然后做做ToB的单子#智谱#讯飞#阿里
九原客2025-01-27 14:38:51有人说DeepSeek R1 的 RL 范式也没啥创新,其实点不在这里。 o1出来后纷纷开始复刻,OpenAI 也不说怎么实现的,也不展示COT数据。所以说蒸馏o1纯属扯淡,OpenAI 防的死死的。 RL 论文上百篇方法几十种,最后 DeepSeek 肯定不是第一家试出来的(比如Google 的 gemini flash 2.0 thinking 就很好),但它是第一家说出来的,善莫大焉。 #DeepSeekR1#RL范式#OpenAI
九原客2025-01-23 08:07:21用17K从DeepSeek R1 蒸馏的SFT数据,微调Qwen2.5-32B,效果非常不错。 与DeepSeek R1自家蒸馏的版本相比略逊一些,但是后者是800k sample,而且这17k数据以及合成脚本完全开源。 方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳,看来越小的模型需要越多的数据激活能力。 1/2 #SFT数据#Qwen2.5-32B#微调
九原客2025-01-20 17:36:27DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。#DeepSeek#思考模型#GRPO
九原客2025-01-16 16:52:56Minimax的模型我原本以为只是一个就很随大流的模型。但实际测试发现在长文本输出层面有点惊艳。 具体可以下载海螺AI,随便找一篇长的英文论文,让他逐字翻译并输出为Markdown格式。Kimi 会拒绝翻译长论文,但是Minimax的模型可以持续输出很久(实测输出1w tokens还不停)同时还可以输出论文插图。#Minimax模型#长文本输出#海螺AI
九原客2025-01-02 03:00:02Things we learned about LLMs in 2024 中我深有同感的: 1. GPT-4的垄断地位被打破。 2. LLM 价格指数式下降。 3. Prompt驱动的应用已经可以商业化。 4. Agents 还没有出现(出现的只是Prompt驱动的Workflow)。 5. 以o1为代表的推理模型开始出现。 6. 合成数据效果很好,事实上目前大部分模型的SFT数据都是合成的,预#GPT-4#垄断地位#价格下降
九原客2024-12-28 03:30:00DeepSeek V3 感觉还是差 Sonet 一筹,Benchmark 是一回事,实际表现是一回事,感觉是混入的数学语料太多。 我的感受(不考虑推理模型) 第一档:Claude Sonet 、Gemini Flash 2.0、 GPT-4o 第二档:DeepSeek V3、Qwen2.5-72B、国内的一票Top 模型 DeepSeek优点是速度变快+便宜~#Sonet#GPT-4o
九原客2024-12-27 15:47:14尝试把第一性原理、Unix哲学和Zen of Python写到System message里。 这样 Claude Sonet 写的代码主观觉得变好了 ,之前的Claude输出的代码有些啰嗦。 之后尝试让Sonet 写了一个Prompt 库,写的很好,有空真去写一个。#第一性原理#Unix哲学#Claude
九原客2024-11-18 20:24:392025年LLM趋势个人预测: 1. Test-time compute 使Agent生产可用。GPT-4o能力级别模型可普遍做到 500 tokens/s 的推理速度从而解决推理耗时问题。 2. 多模态大模型生产可用,端到端和大小模型组合两种架构并驾齐驱。 3. 更多领域级的小模型(不仅是数学、代码)从通用模型分化并提升效果。#LLM趋势#多模态大模型#模型推理速度