时政
财经
科技
登录
九原客
关注
统计数据
20
文章
0
粉丝
0
获赞
12
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
九原客
5天前
问数先不提技术的坑,就说最本质的目标客户。 如果给不懂SQL的业务部门(or领导)使用且自由提问,核心问题是无法信任模型输出,且不懂SQL也无法核查正确性。 问答也有类似问题,但有引文做信任基础。 现在 Text2SQL 更多还是辅助数据工程师,减少工作量,而不是做成终端产品交付给业务部门。
分享
评论 0
0
九原客
1周前
有人指控Pangu Pro MoE 模型其实是沿自Qwen2.5-14B(大小不一致没关系,可以通过复制参数的方式实现) 几个证据: 1. 毫无理由出现在Pangu Pro MoE代码库里的Qwen License 2. QKV偏置分析、激活值分布特征等统计结果 3. 架构和超参数的选择 建议自high可以,谨慎开源。
分享
评论 0
0
九原客
1周前
(1/3)【论文推荐】DeepResearch 是我最近研究的重点方向,推荐3篇文章: (好一些的综述) (过于求全反而缺乏洞见的综述) (评估方法,从报告质量和引用精度两个角度评估)
分享
评论 0
0
九原客
2个月前
HellaSwag 评测集99分代表什么华为一堆博士不懂么?这个评测集里自然错误率很高的。 刷分也刷的太过了,第二个图更是通用模型吊打推理模型。
分享
评论 0
0
九原客
3个月前
来自一亩三分地的爆料。
#一亩三分地
#爆料
分享
评论 0
0
九原客
3个月前
是最适合由Sonnet 生成的流程图、架构图格式。 比svg增加了可编辑,比mermaid、plantuml 漂亮。
#sonnet
#流程图
#架构图
#SVG
#编辑
#mermaid
#plantuml
#图形设计
分享
评论 0
0
九原客
4个月前
目前我日常使用的模型(非广告~) (日常用): - (Grok3 真的很好) - (Qwen2.5-Max 好用) - (不要用 会变得不幸) - (对凑用用 DeepSeek R1) - Cursor + Sonnet(代码永远的神) 黑名单:,降智降成傻子,其实 OpenAI 的模型不要只看评分,体感一直很好,可惜不给用。 (API 用): - (测试各种奇怪的模型,没必要自己部署) - (虽然被背刺,但是embedding之类的模型托管的平台不多) - (只用来跑 DeepSeek R1/V3 批量和在线推理)
#模型
#Grok3
#Qwen2.5-Max
#DeepSeek R1
#Cursor
#sonnet
#OpenAI
分享
评论 0
0
九原客
4个月前
最近两三周给很多客户反复提及的忠告: 用模型一定要用最好的那个,如果想省钱,请在你的场景下微调,而不是用一个低能力的通用模型,然后试图靠 Prompt 或者工程努力去拯救它。 比如 DeepSeek 的那一堆蒸馏模型是很好的场景级推理模型的Base,但是不要直接用,真的很差。
#模型选择
#微调
#场景应用
#Prompt
#工程努力
#DeepSeek
#蒸馏模型
#推理模型
分享
评论 0
0
九原客
4个月前
DeepSeek 满血版在国产硬件上贫瘠的推理性能基本告别生产级应用。 四台8卡晟腾910B 单用户推理速度才10+ tokens/s,花五百万就买个这?
#DeepSeek
#国产硬件
#推理性能
#生产级应用
#晟腾910B
#单用户推理速度
分享
评论 0
0
九原客
5个月前
杨立昆锐评某些硅谷公司(deepseek 翻译) —— - 硅谷某些圈子中的一种常见病:一种错位的优越感。 - 晚期症状:认为自己的小团体垄断了好主意。 - 末期症状:认为来自他处的创新是通过欺骗手段获得的。 科技进步在更多有才华的人参与并*分享*他们的创新时发展得更快。 事实上,这就是原因: - 科学界围绕出版物和工具共享进行组织 - 开发者社区围绕开源组织 - 专利制度存在(尽管对于软件和服务来说已经过时且适得其反):你可能会获得政府对发明使用的短期独占权,但作为交换,你必须披露足够的信息,以便他人能够复制并在其基础上进行构建。
#硅谷
#科技创新
#优越感
#科学共享
#开源
#专利制度
分享
评论 0
0
九原客
5个月前
国内大模型玩家小评: 智谱:技术很不错,专攻ToB、ToG,但是新公司想踩透ToB的弯弯绕,得先吃点亏。 讯飞:垃圾模型,但是讯飞在国资委很有影响力,应该还能拿单。 阿里:Qwen 持续开源领先,ToB 躲在后面让集成商中标干苦力活。 腾讯:反正外面没人用,开源了捧个人场。 字节:豆包主要还是服务自家 ToC 场景,API 赚不到钱也没什么人用。 百度:专心做ToC 场景吧,然后做做ToB的单子,闷声不被骂。 华为:专心做昇腾生态,卖昇腾服务器,前途广大。 Kimi:被豆包干死。
#智谱
#讯飞
#阿里
#腾讯
#字节
#百度
#大模型
#ToC场景
#ToB市场
#开源技术
分享
评论 0
0
九原客
5个月前
有人说DeepSeek R1 的 RL 范式也没啥创新,其实点不在这里。 o1出来后纷纷开始复刻,OpenAI 也不说怎么实现的,也不展示COT数据。所以说蒸馏o1纯属扯淡,OpenAI 防的死死的。 RL 论文上百篇方法几十种,最后 DeepSeek 肯定不是第一家试出来的(比如Google 的 gemini flash 2.0 thinking 就很好),但它是第一家说出来的,善莫大焉。 为全球降低试错成本,就是开源最大的价值,节约的是全人类的资源。 另外 Kimi 的论文也不错,在数据和Reward方面比DeepSeek 更详细一些,也推荐看看。
#DeepSeekR1
#RL范式
#OpenAI
#COT数据
#geminiflash2.0
#论文创新
#DeepSeek
分享
评论 0
0
九原客
5个月前
所以我说学界取得这个蒸馏术语,就取得不太好。 外行一听就有自己的小理解了
#学界术语
#蒸馏术语
#外行理解
分享
评论 0
0
九原客
5个月前
用17K从DeepSeek R1 蒸馏的SFT数据,微调Qwen2.5-32B,效果非常不错。 与DeepSeek R1自家蒸馏的版本相比略逊一些,但是后者是800k sample,而且这17k数据以及合成脚本完全开源。 方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳,看来越小的模型需要越多的数据激活能力。 1/2
#DeepSeek R1
#SFT数据
#Qwen2.5-32B
#微调
#蒸馏
#Sky-T1
#模型效果
#数据开源
#17K数据
分享
评论 0
0
九原客
5个月前
DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。
#DeepSeek
#思考模型
#GRPO
#Reward Model
#RL
#PRM
#MCTS
#cot训练
分享
评论 0
0
九原客
5个月前
Minimax的模型我原本以为只是一个就很随大流的模型。但实际测试发现在长文本输出层面有点惊艳。 具体可以下载海螺AI,随便找一篇长的英文论文,让他逐字翻译并输出为Markdown格式。Kimi 会拒绝翻译长论文,但是Minimax的模型可以持续输出很久(实测输出1w tokens还不停)同时还可以输出论文插图。
#Minimax模型
#长文本输出
#海螺AI
#论文翻译
#Kimi
分享
评论 0
0
九原客
6个月前
Things we learned about LLMs in 2024 中我深有同感的: 1. GPT-4的垄断地位被打破。 2. LLM 价格指数式下降。 3. Prompt驱动的应用已经可以商业化。 4. Agents 还没有出现(出现的只是Prompt驱动的Workflow)。 5. 以o1为代表的推理模型开始出现。 6. 合成数据效果很好,事实上目前大部分模型的SFT数据都是合成的,预训练数据也经过了精心过滤。 7. 社会上不同的人群对大模型的认知差距十分巨大,可能会带来新的数字鸿沟。 8. 长上下文很重要,激发了很多可能性。(没有长上下文,cursor 是不会出现的,只有代码补全)
#GPT-4
#垄断地位
#价格下降
#Prompt驱动
#商业化
#Agents
#推理模型
#合成数据
#SFT数据
分享
评论 0
0
九原客
6个月前
DeepSeek V3 感觉还是差 Sonet 一筹,Benchmark 是一回事,实际表现是一回事,感觉是混入的数学语料太多。 我的感受(不考虑推理模型) 第一档:Claude Sonet 、Gemini Flash 2.0、 GPT-4o 第二档:DeepSeek V3、Qwen2.5-72B、国内的一票Top 模型 DeepSeek优点是速度变快+便宜~
#DeepSeek v3
#Sonet
#Claude Sonet
#Gemini Flash 2.0
#GPT-4o
#Qwen2.5-72B
#AI Benchmark
#AI模型对比
#模型推理速度
#模型成本
分享
评论 0
0
九原客
6个月前
尝试把第一性原理、Unix哲学和Zen of Python写到System message里。 这样 Claude Sonet 写的代码主观觉得变好了 ,之前的Claude输出的代码有些啰嗦。 之后尝试让Sonet 写了一个Prompt 库,写的很好,有空真去写一个。
#第一性原理
#Unix哲学
#Zen of Python
#Claude
#代码
#Prompt库
分享
评论 0
0
九原客
7个月前
2025年LLM趋势个人预测: 1. Test-time compute 使Agent生产可用。GPT-4o能力级别模型可普遍做到 500 tokens/s 的推理速度从而解决推理耗时问题。 2. 多模态大模型生产可用,端到端和大小模型组合两种架构并驾齐驱。 3. 更多领域级的小模型(不仅是数学、代码)从通用模型分化并提升效果。
#LLM趋势
#Test-time compute
#多模态大模型
#模型推理速度
#领域级小模型
分享
评论 0
0
1
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞