九原客

统计数据

33
文章
0
粉丝
0
获赞
194
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
九原客
9个月前
所以我说学界取得这个蒸馏术语,就取得不太好。 外行一听就有自己的小理解了
#学界术语 #蒸馏术语 #外行理解
avatar
九原客
9个月前
用17K从DeepSeek R1 蒸馏的SFT数据,微调Qwen2.5-32B,效果非常不错。 与DeepSeek R1自家蒸馏的版本相比略逊一些,但是后者是800k sample,而且这17k数据以及合成脚本完全开源。 方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳,看来越小的模型需要越多的数据激活能力。 1/2
#DeepSeek R1 #SFT数据 #Qwen2.5-32B #微调 #蒸馏 #Sky-T1 #模型效果 #数据开源 #17K数据
avatar
九原客
9个月前
DeepSeek R1的论文非常值得仔细看,粗略扫了下,他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。 同时这也证明领域级思考模型的训练目前的技术完全可以复现,只需要想办法合成对应的cot训练数据。 明天仔细研读下,并着手在实际的领域中尝试落地。
#DeepSeek #思考模型 #GRPO #Reward Model #RL #PRM #MCTS #cot训练
avatar
九原客
9个月前
Minimax的模型我原本以为只是一个就很随大流的模型。但实际测试发现在长文本输出层面有点惊艳。 具体可以下载海螺AI,随便找一篇长的英文论文,让他逐字翻译并输出为Markdown格式。Kimi 会拒绝翻译长论文,但是Minimax的模型可以持续输出很久(实测输出1w tokens还不停)同时还可以输出论文插图。
#Minimax模型 #长文本输出 #海螺AI #论文翻译 #Kimi
avatar
九原客
9个月前
Things we learned about LLMs in 2024 中我深有同感的: 1. GPT-4的垄断地位被打破。 2. LLM 价格指数式下降。 3. Prompt驱动的应用已经可以商业化。 4. Agents 还没有出现(出现的只是Prompt驱动的Workflow)。 5. 以o1为代表的推理模型开始出现。 6. 合成数据效果很好,事实上目前大部分模型的SFT数据都是合成的,预训练数据也经过了精心过滤。 7. 社会上不同的人群对大模型的认知差距十分巨大,可能会带来新的数字鸿沟。 8. 长上下文很重要,激发了很多可能性。(没有长上下文,cursor 是不会出现的,只有代码补全)
#GPT-4 #垄断地位 #价格下降 #Prompt驱动 #商业化 #Agents #推理模型 #合成数据 #SFT数据
avatar
九原客
10个月前
DeepSeek V3 感觉还是差 Sonet 一筹,Benchmark 是一回事,实际表现是一回事,感觉是混入的数学语料太多。 我的感受(不考虑推理模型) 第一档:Claude Sonet 、Gemini Flash 2.0、 GPT-4o 第二档:DeepSeek V3、Qwen2.5-72B、国内的一票Top 模型 DeepSeek优点是速度变快+便宜~
#DeepSeek v3 #Sonet #Claude Sonet #Gemini Flash 2.0 #GPT-4o #Qwen2.5-72B #AI Benchmark #AI模型对比 #模型推理速度 #模型成本
avatar
九原客
10个月前
尝试把第一性原理、Unix哲学和Zen of Python写到System message里。 这样 Claude Sonet 写的代码主观觉得变好了 ,之前的Claude输出的代码有些啰嗦。 之后尝试让Sonet 写了一个Prompt 库,写的很好,有空真去写一个。
#第一性原理 #Unix哲学 #Zen of Python #Claude #代码 #Prompt库
avatar
九原客
11个月前
2025年LLM趋势个人预测: 1. Test-time compute 使Agent生产可用。GPT-4o能力级别模型可普遍做到 500 tokens/s 的推理速度从而解决推理耗时问题。 2. 多模态大模型生产可用,端到端和大小模型组合两种架构并驾齐驱。 3. 更多领域级的小模型(不仅是数学、代码)从通用模型分化并提升效果。
#LLM趋势 #Test-time compute #多模态大模型 #模型推理速度 #领域级小模型
© 2025 news.news. All rights reserved. 0.02435 秒. v1.0.46
我的评论