向阳乔木
6个月前
为了学好英语,我试过各种稀奇古怪的方法: - 有时候觉得单词重要,就开始下载各种背单词软件,比如不背单词,百词斩等等。 - 有时候觉得应该玩中学,就从Steam下载各种适合学英语的游戏,比如80天环游地球等。 - 有时候觉得要跟老外交流,于是淘宝买菲律宾外教英语课,还下载各种跟老外聊天的软件,比如Tandem、Yeetalk、WorldTalk等。 直到现在,英语水平有一些提升,但很有限。 我发现进步最快的阶段是在TikTok工作时候,为了跟老外法务打交道,为了用英语讲PRD,为了组织每周的英语周会。 这两天看到好友突然定下目标,计划用一年时间把英语水平提升到专八。 希望再次被点燃,因为曾受她的影响开始每天写日志,到现在三年多,几乎一天没断过。 虽然现在写东西还是磕磕绊绊,但这个每天写字的习惯算是养成了。 今天我对这个朋友说:姐,我想学英语。 迅速组了个10人小群,拉上大家跟她一起学。 我听了她的学习建议,恍然大悟,原来真正有效的方法就是那么的朴实无华: 1. 找一段自己感兴趣的英语内容作为语料(别太长),盲听1-2遍,再看一眼文字版。 2. 总结哪些地方没听出来,搞清楚是词汇还是发音问题,再仔细听上回没听出来的部分,一直听到通顺,然后试着复述,再听。 我想,过程可能有点像训练大语言模型,提供优质语料,刻意练习、直至熟练到让大脑发现隐藏在语言背后的Pattern,未来就能预测生成下一个token,最后生成流畅的语言表达。 听起来虽然美好,逻辑貌似也能说得通。 但是,刻意练习必须投入时间,想好目标,定好Deadline,死磕一段时间再看效果。 最近Deepseek火爆,从它的强化学习训练方法中,大家提炼出一个非常有效的学习方法,那就是“干中学”。 无论学什么都可以用,英语估计也不例外。 下一步,可能要设计个逼自己用英语的场景,在实践中学。 阶段性目标暂定一个月后,比如,用英语介绍用“黄金圈”法则写Prompt?
向阳乔木
6个月前
看到篇讲大模型 temperature和top_p设置的文章,好奇为什么默认是0.7 和 (0.5-0.8)的设置,Gemini Flash thinking给的解释 1. 为什么 0.7 常常作为 temperature 的默认值? temperature = 0.7 通常被认为是 在创造性和可靠性之间取得较好平衡 的一个值。 在这个温度下,模型在各常见任务 (例如:对话、文本生成、摘要等) 中,都能产生相对令人满意的、质量和多样性兼顾的输出。 2. 为什么 top_p 的常用建议范围是 0.5 - 0.8? top_p 的主要作用是控制采样范围,降低 top_p 可以约束模型的生成方向,使其更聚焦、更可控。 0.5 - 0.8 这个范围,被认为是既能有效控制发散程度,又能保留一定的多样性和创新性的一个平衡区间。 top_p 过高 (例如 0.9 - 1.0),采样范围过大,可能导致模型生成内容过于发散、主题不明确、跑题等。 在高 temperature 的情况下,这种 “失控” 的风险更高。 top_p 过低 (例如 0.3 或更低): 采样范围过窄,会导致生成内容过于保守、重复、缺乏新意,甚至出现 “卡壳” 或循环的情况。 对于需要较高准确性和可靠性的任务 ,例如:事实性问答、代码生成,top_p 可以适当调低一些,例如 0.3 - 0.6 对于需要较高创造性和多样性的任务 ,例如:故事创作、头脑风暴。 top_p 可以适当调高一些,例如 0.7 - 0.9 top_p 值越低,要考虑的词语数量越少,计算效率相对越高。 在某些对延迟敏感应用场景下,适当降低 top_p 也有一定的性能优化作用。
向阳乔木
6个月前
6万张显卡之谜:一文看懂DeepSeek的真实算力 今天读卓克讲Deepseek的三篇文章,AI总结做些笔记。 Deepseek到底有多少张H100显卡? 坊间传闻中DeepSeek拥有5万张H100计算卡。 但实际上,DeepSeek的计算卡主要由上一代卡和阉割版本的卡组成。 据Semianalysis分析,DeepSeek大约有6万张卡。 包括A100、H800、H100各1万张,以及3万张H20。 Semianalysis用四大维度推算的: 1️⃣ 英伟达芯片产能 & 美国出口记录 2️⃣ 服务器采购成本逆向推算 3️⃣ 技术文档反推模型算力需求 4️⃣ 母公司投资能力评估 💡 关键结论: • 总芯片6万张,但实际算力仅≈1.95万张H100水平 • 受出口管制影响,低算力H20芯片占比达50% DeepSeek的训练成本仅为600万美元? 说法有误导性。 这仅仅是DeepSeek自己公布的V3模型预训练费用:数据费用 + H800 GPU运行费用。 实际总花费远高于此,包括购买GPU的7亿美元、搭建服务器的9亿美元,以及四年运营成本9.44亿美元,总计约26亿美元。 将600万美元作为DeepSeek的训练成本会严重低估实际投入,让人误以为大语言模型开发的门槛很低。 DeepSeek R1 是从GPT的模型里蒸馏出来的吗? 不是从GPT的模型里蒸馏出来的。 Perplexity的CEO和Stable Diffusion的创始人都明确表示R1不是抄袭或蒸馏。 开源社区(GitHub)也普遍认为R1不是蒸馏出来的。 DeepSeek持续提交大语言模型的不同版本,且都是MIT协议,允许使用者随意使用和修改。 多家公司复现R1模型,包括Hugging Face, Perplexity, 英伟达等,进一步证明了R1并非来自GPT模型的蒸馏:如果R1是蒸馏来的,这些公司不可能在短时间内商用,并且不怕与OpenAI打官司。 DeepSeek的数据是从GPT偷来的? 目前并没有确凿证据。 微软的安全员观察到,疑似与DeepSeek有关联的个人使用了OpenAI的API接口窃取数据,但并未指明是DeepSeek官方行为。 大模型公司常从数据公司购买数据,数据公司可能从OpenAI等处"薅羊毛",但这并不意味着DeepSeek直接盗取了GPT的数据。 "薅羊毛"是行业内普遍现象,通过API接口收集用户问题和回答,并将其整理为训练数据出售。(去年很多免费提供ChatGPT的平台,看来都是"薅羊毛"的) R1为什么有时会说自己是GPT? 主要原因是训练数据中可能包含来自GPT的标签 或者是互联网上存在AI生成的内容,被模型抓取并输出。 R1是国运级别的成果吗? 不恰当,甚至会害了Deepseek 梁文峰认为,创新应尽可能减少干预和管理,让每个人自由发挥,创新是自己生长出来的,而非可以计划或安排的。 过分强调R1的国运意义或将其视为武器,会对DeepSeek的创新发展产生负面影响。 R1模型的创新之处究竟在哪里? 核心:在微调阶段引入不依赖监督微调的强化学习,使得微调后的模型性能大幅增长。 传统微调方法可能会降低模型性能,而R1通过直接强化学习,避免了奖励模型带来的评判标准割裂问题。 R1的微调方法类似学生通过大量练习自己总结规律,而不是依赖老师的讲解。 R1在微调阶段需要更多的算力,但带来的性能提升远超传统方法。 R1的微调思想与AlphaGo Zero类似,都是通过自我学习和迭代来提升性能。 另外, DeepSeek在V2和V3版本中采用了多种降低成本、提高计算卡利用率的技术。技术包括Multi-Token Prediction、FP8混合精度、DualPipe等。 R1 与AlphaGo Zero的共性 方法论相似 - 🧠 自我学习机制:不依赖人工标注数据 - ♟️ 迭代优化路径:多轮次自我进化 - 🏆 奖励驱动:简化但明确的评估标准 - 🚀 创新突破性:突破传统方法天花板 实现差异 - 🤖 数据生成方式:R1通过候选答案筛选 vs AlphaGo自我对弈 - 🎯 应用领域:NLP复杂任务 vs 围棋规则明确场景 - ⚙️ 技术复杂度:语言模型需处理开放域问题
向阳乔木
6个月前