九原客发布的内容- news.news·换个方式看新闻|AI看新闻、实时追踪事件后续

九原客

统计数据

20

文章

0

粉丝

0

获赞

8

阅读

九原客

5天前

问数先不提技术的坑，就说最本质的目标客户。如果给不懂SQL的业务部门（or领导）使用且自由提问，核心问题是无法信任模型输出，且不懂SQL也无法核查正确性。问答也有类似问题，但有引文做信任基础。现在 Text2SQL 更多还是辅助数据工程师，减少工作量，而不是做成终端产品交付给业务部门。

九原客

1周前

有人指控Pangu Pro MoE 模型其实是沿自Qwen2.5-14B（大小不一致没关系，可以通过复制参数的方式实现）几个证据： 1. 毫无理由出现在Pangu Pro MoE代码库里的Qwen License 2. QKV偏置分析、激活值分布特征等统计结果 3. 架构和超参数的选择建议自high可以，谨慎开源。

九原客

1周前

（1/3）【论文推荐】DeepResearch 是我最近研究的重点方向，推荐3篇文章：（好一些的综述）（过于求全反而缺乏洞见的综述）（评估方法，从报告质量和引用精度两个角度评估）

九原客

2个月前

HellaSwag 评测集99分代表什么华为一堆博士不懂么？这个评测集里自然错误率很高的。刷分也刷的太过了，第二个图更是通用模型吊打推理模型。

九原客

3个月前

来自一亩三分地的爆料。

#一亩三分地 #爆料

九原客

3个月前

是最适合由Sonnet 生成的流程图、架构图格式。比svg增加了可编辑，比mermaid、plantuml 漂亮。

#sonnet #流程图 #架构图 #SVG #编辑 #mermaid #plantuml #图形设计

九原客

3个月前

目前我日常使用的模型（非广告～）（日常用）： - （Grok3 真的很好） - （Qwen2.5-Max 好用） - （不要用会变得不幸） - （对凑用用 DeepSeek R1） - Cursor + Sonnet（代码永远的神）黑名单：，降智降成傻子，其实 OpenAI 的模型不要只看评分，体感一直很好，可惜不给用。（API 用）： - （测试各种奇怪的模型，没必要自己部署） - （虽然被背刺，但是embedding之类的模型托管的平台不多） - （只用来跑 DeepSeek R1/V3 批量和在线推理）

#模型 #Grok3 #Qwen2.5-Max #DeepSeek R1 #Cursor #sonnet #OpenAI

九原客

4个月前

最近两三周给很多客户反复提及的忠告：用模型一定要用最好的那个，如果想省钱，请在你的场景下微调，而不是用一个低能力的通用模型，然后试图靠 Prompt 或者工程努力去拯救它。比如 DeepSeek 的那一堆蒸馏模型是很好的场景级推理模型的Base，但是不要直接用，真的很差。

#模型选择 #微调 #场景应用 #Prompt #工程努力 #DeepSeek #蒸馏模型 #推理模型

九原客

4个月前

DeepSeek 满血版在国产硬件上贫瘠的推理性能基本告别生产级应用。四台8卡晟腾910B 单用户推理速度才10+ tokens/s，花五百万就买个这？

#DeepSeek #国产硬件 #推理性能 #生产级应用 #晟腾910B #单用户推理速度

九原客

5个月前

杨立昆锐评某些硅谷公司（deepseek 翻译） —— - 硅谷某些圈子中的一种常见病:一种错位的优越感。 - 晚期症状:认为自己的小团体垄断了好主意。 - 末期症状:认为来自他处的创新是通过欺骗手段获得的。科技进步在更多有才华的人参与并*分享*他们的创新时发展得更快。事实上,这就是原因: - 科学界围绕出版物和工具共享进行组织 - 开发者社区围绕开源组织 - 专利制度存在(尽管对于软件和服务来说已经过时且适得其反):你可能会获得政府对发明使用的短期独占权,但作为交换,你必须披露足够的信息,以便他人能够复制并在其基础上进行构建。

#硅谷 #科技创新 #优越感 #科学共享 #开源 #专利制度

九原客

5个月前

国内大模型玩家小评：智谱：技术很不错，专攻ToB、ToG，但是新公司想踩透ToB的弯弯绕，得先吃点亏。讯飞：垃圾模型，但是讯飞在国资委很有影响力，应该还能拿单。阿里：Qwen 持续开源领先，ToB 躲在后面让集成商中标干苦力活。腾讯：反正外面没人用，开源了捧个人场。字节：豆包主要还是服务自家 ToC 场景，API 赚不到钱也没什么人用。百度：专心做ToC 场景吧，然后做做ToB的单子，闷声不被骂。华为：专心做昇腾生态，卖昇腾服务器，前途广大。 Kimi：被豆包干死。

#智谱 #讯飞 #阿里 #腾讯 #字节 #百度 #大模型 #ToC场景 #ToB市场 #开源技术

九原客

5个月前

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。 o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。 RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking 就很好），但它是第一家说出来的，善莫大焉。为全球降低试错成本，就是开源最大的价值，节约的是全人类的资源。另外 Kimi 的论文也不错，在数据和Reward方面比DeepSeek 更详细一些，也推荐看看。

#DeepSeekR1 #RL范式 #OpenAI #COT数据 #geminiflash2.0 #论文创新 #DeepSeek

九原客

5个月前

所以我说学界取得这个蒸馏术语，就取得不太好。外行一听就有自己的小理解了

#学界术语 #蒸馏术语 #外行理解

九原客

5个月前

用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。 1/2

#DeepSeek R1 #SFT数据 #Qwen2.5-32B #微调 #蒸馏 #Sky-T1 #模型效果 #数据开源 #17K数据

九原客

5个月前

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。明天仔细研读下，并着手在实际的领域中尝试落地。

#DeepSeek #思考模型 #GRPO #Reward Model #RL #PRM #MCTS #cot训练

九原客

5个月前

Minimax的模型我原本以为只是一个就很随大流的模型。但实际测试发现在长文本输出层面有点惊艳。具体可以下载海螺AI，随便找一篇长的英文论文，让他逐字翻译并输出为Markdown格式。Kimi 会拒绝翻译长论文，但是Minimax的模型可以持续输出很久（实测输出1w tokens还不停）同时还可以输出论文插图。

#Minimax模型 #长文本输出 #海螺AI #论文翻译 #Kimi

九原客

6个月前

Things we learned about LLMs in 2024 中我深有同感的： 1. GPT-4的垄断地位被打破。 2. LLM 价格指数式下降。 3. Prompt驱动的应用已经可以商业化。 4. Agents 还没有出现（出现的只是Prompt驱动的Workflow）。 5. 以o1为代表的推理模型开始出现。 6. 合成数据效果很好，事实上目前大部分模型的SFT数据都是合成的，预训练数据也经过了精心过滤。 7. 社会上不同的人群对大模型的认知差距十分巨大，可能会带来新的数字鸿沟。 8. 长上下文很重要，激发了很多可能性。(没有长上下文，cursor 是不会出现的，只有代码补全）

#GPT-4 #垄断地位 #价格下降 #Prompt驱动 #商业化 #Agents #推理模型 #合成数据 #SFT数据

九原客

6个月前

DeepSeek V3 感觉还是差 Sonet 一筹，Benchmark 是一回事，实际表现是一回事，感觉是混入的数学语料太多。我的感受（不考虑推理模型）第一档：Claude Sonet 、Gemini Flash 2.0、 GPT-4o 第二档：DeepSeek V3、Qwen2.5-72B、国内的一票Top 模型 DeepSeek优点是速度变快+便宜～

#DeepSeek v3 #Sonet #Claude Sonet #Gemini Flash 2.0 #GPT-4o #Qwen2.5-72B #AI Benchmark #AI模型对比 #模型推理速度 #模型成本

九原客

6个月前

尝试把第一性原理、Unix哲学和Zen of Python写到System message里。这样 Claude Sonet 写的代码主观觉得变好了，之前的Claude输出的代码有些啰嗦。之后尝试让Sonet 写了一个Prompt 库，写的很好，有空真去写一个。

#第一性原理 #Unix哲学 #Zen of Python #Claude #代码 #Prompt库

九原客

7个月前

2025年LLM趋势个人预测： 1. Test-time compute 使Agent生产可用。GPT-4o能力级别模型可普遍做到 500 tokens/s 的推理速度从而解决推理耗时问题。 2. 多模态大模型生产可用，端到端和大小模型组合两种架构并驾齐驱。 3. 更多领域级的小模型（不仅是数学、代码）从通用模型分化并提升效果。

#LLM趋势 #Test-time compute #多模态大模型 #模型推理速度 #领域级小模型