时政
财经
科技
虚拟货币
其他
登录
宝玉
关注
统计数据
502
文章
0
粉丝
0
获赞
3041
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
宝玉
6个月前
以后像图1这种虾扯蛋的观点,直接问问 DeepSeek 或者 ChatGPT 就能知道答案。 提示词:“请帮我从技术角度分析这个图片上的观点对不对,如果不对问题在哪?请详细指出” DeepSeek: 从技术角度分析,图片中的观点存在多处不准确或过度简化的问题,具体如下: 1. 信息密度的量化问题 • 观点:单个汉字的信息密度是英文单词的3.7倍。 • 问题: • 信息密度的定义模糊。信息论中通常用“熵”衡量信息量,但汉字和英文单词的对比需考虑上下文依赖、语法结构等复杂因素,简单用“3.7倍”缺乏严谨依据。 • 实际研究:中文确实在字符层面信息密度较高(如“肺炎”用2个汉字表达,英文“pneumonia”需10个字母),但英文通过词根词缀组合(如“tele-vision”)也能高效构词,且现代AI模型(如BERT、GPT)使用子词切分(subword tokenization)处理文本,大幅降低了字符数量的直接影响。 2. 新词汇增长的逻辑漏洞 • 观点:英语每年新增专业词汇是汉语的7.6倍,导致AI训练负担加重。 • 问题: • 数据来源存疑:未提供斯坦福大学报告的具体引用,且专业词汇的统计方法(如是否包含复合词、缩写等)未明确。 • AI训练的实际影响: • 英语新增词汇多为组合词(如“blockchain”=“block”+“chain”),模型可通过已有词根推断语义,无需完全重新学习。 • 中文新词虽依赖组合(如“人工智能”),但同样需要模型学习语义关联,并非天然节省训练成本。 • tokenization策略差异:英语使用子词切分(如WordPiece),中文使用字符或词语切分。子词切分能有效减少词汇表膨胀,降低新增词汇的负面影响。 3. 汉字结构优势的片面性 • 观点:汉字通过组合造词(如“肺炎”),而英语需创造新词,导致字符更多、代码量更大。 • 问题: • 英语同样利用词根词缀构词(如“pneumonia”来自希腊词根“pneumon”),并非完全依赖全新词汇。 • 代码量与训练成本:AI模型的输入是token序列,而非原始字符。英文虽字符多,但经过子词切分后,token数量可能与中文接近(例如“television”切分为“tele”和“vision”)。 4. 算力需求的夸张推论 • 观点:若英语词汇增速不变,2050年需要1.7个地球的算力。 • 问题: • 该说法是比喻,但缺乏技术依据。算力需求取决于模型架构、优化算法(如稀疏计算、量化)和数据效率,而非单纯词汇量增长。 • 技术进步(如MoE模型、分布式训练)可显著提升算力利用效率,线性外推不成立。 总结:核心误区 1. 将语言特性与AI训练成本直接挂钩,忽视了分词策略和模型优化的作用。 2. 过度简化语言复杂性,未考虑词根词缀、语义组合等因素。 3. 依赖未经验证的数据,如“3.7倍信息密度”和“7.6倍新词汇量”。 建议 若需优化多语言AI训练,应关注: • 分词策略:针对不同语言设计高效tokenization方法(如子词切分对英语、字符切分对中文)。 • 跨语言迁移学习:利用语言间的语义共性减少重复训练。 • 数据预处理:去噪、压缩和增强技术可降低数据量对算力的影响。 ------ o1 pro: 下面是一家之言,供参考。我把贴子中几条主要观点拎出来,逐一从技术层面分析为什么它们并不准确,以及问题出在哪里。 1. “汉字单字平均承载的信息量是英文单词的 3.7 倍” 这类“汉字信息密度更高”的说法网上常能见到,但通常是以偏概全: 1. “单个汉字 vs. 单个英文单词”本身就不对等。英文单词往往由多个字母组成,一个汉字只能对应一个音节或一个相对简短的语素。 2. 对“信息量”的衡量方式并不清晰。信息论里衡量信息量要看统计分布、熵、编码长度等等,很难用一句“一个汉字抵几个字母/单词”来简单结论。 3. 从自然语言处理角度看,模型往往使用「子词(subword)」或「BPE」等分词/切分方法,不会简单以“一个汉字”或“一个英文单词”作为最小粒度。因此并不是汉语文本就能“减少 3.7 倍的数据量”这么直接。 核心问题: • 贴子把“单字信息量”和“单词信息量”之间的关系绝对化了,没有看真实语言处理里更细的切分、上下文依赖、词频分布等要素。 • 即使某些场合汉语文本更“简洁”,也不代表可以大幅削减数据量和算力消耗,LLM 的训练流程远比“字符计数 × 信息密度”复杂。 2. “英语每年新增的专业词汇量是汉语的 7.6 倍,会给 AI 训练造成沉重负担” 这里至少有两个问题: 1. “7.6 倍”这一数值来源不明。即便有学者或词典统计过英语一年新增词条数,也很难说所有“专业词汇”都要被模型“重新从头学”。 2. 现代大模型对新词的处理方式并不是简单地“遇到新词就必须额外训练好多轮”。当前的预训练模型往往采用子词级别的分词算法,遇到新词,也可以由已有的子词(token)组合而成,不一定需要完全“手动添加一个全新的词向量”。 当然,语言本身在不断演化,确实会出现 domain-specific(领域专门) 的新概念需要更新训练数据,但这并不意味着“每个新词就等于乘以多少倍的训练难度”。 • 大模型可以增量训练或通过微调(Fine-tuning)、插件式扩展等方法来适应新术语。 • 对于绝大多数新专有名词,模型通过上下文已能大致学到含义,不见得要在“7.6 倍”的维度级别做繁琐的全量再训练。 核心问题: • 把新增词量与训练负担直接画等号,缺乏对实际 NLP 技术(如 subword、增量学习)的了解。 • 数据增多确会带来算力需求上升,但不会以线性倍数堆积到所谓“不可承受”地步。 3. “如果英语一直这样增长,到 2050 年可能需要 1.7 个地球的算力” 这是比较典型的耸人听闻或“线性外推”谬误: 1. 计算需求不会简单线性外推:芯片工艺、硬件结构(如 GPU 到 TPU 再到更先进的 AI 芯片)的演进,使算力的“单位功耗产出”在不断提高,能效也在提升。 2. 模型算法本身也在演进:从最早的 RNN -> LSTM -> Transformer -> 自注意力机制 -> 各类更高效的推理加速技术……当算法、结构、优化策略都在提升,训练所需的算力并非只会“被数据量拖着狂飙”。 3. 很多类似“需要 N 个地球才能支撑”的说法,本身大多是宣传或戏谑性质,与严谨的学术报告相去甚远。缺乏对硬件效率提升、分布式训练架构优化、模型剪枝/量化等技术手段的考量。 核心问题: • 该数据既无可靠出处,也没有考虑技术发展或摩尔定律等多种因素,属于严重的线性推演错误。 4. “汉语因为用字少、更简洁,所以能大幅减少训练成本” 确实,汉语在语料长度上常比英语更短一些,这会在相同语义负载下略微降低训练序列长度,但不是本质性地“省了好几倍”: • 子词切分后的总 token 数量并不会直接因“汉字”而锐减很多。某些场景下汉语虽然字符数少,但分词之后的有效 token 量可能跟英文并没有数量级的差异。 • “训练成本”还取决于模型规模、训练目标、超参设置、batch size、优化方法等等,并不只取决于字数多少。 • 当深入到许多专业领域(如生物医药、法律等),中文也会产生大量外来词、缩写、专有名词,实际训练起来同样需要庞大算力。 核心问题: • 过分夸大了“汉语字少”对整体训练成本的影响,忽视了现代语言模型对文本的切分、对专业名词的处理方式,以及整体算力瓶颈更多来自模型深度和数据规模的质量(而不仅是“字符量”)。 5. 小结 贴子给人的总体印象,是把语言增量与 AI 算力需求作了一个过度线性的推演,并且混淆了字符计数、信息密度、训练难度之间的关系。主要问题包括: 1. 数据和出处可疑:文中提到的“斯坦福大学统计”或“某教授结论”没有具体引用来源,也不符合常见的学术报告逻辑。 2. 忽略了当代 NLP 的技术细节:包括子词分词、增量训练、模型结构优化、硬件能效提升等。 3. 线性外推谬误:任何“到 X 年需要 N 个地球”之类的算法/算力预估,往往缺少对技术迭代和硬件进步的考虑,很难站得住脚。 4. 忽视了语言层面的真实复杂度:无论是中文还是英文,都存在大量派生词、专有名词、组合词,不能简单以“3.7 倍信息量”“7.6 倍新增词”来决定训练的最终难度。 简而言之: • 这些“汉字信息量比英文词大好多”“英语年增词汇让 AI 难以招架”“2050 年要 1.7 个地球算力”等结论,大都没有充分的技术依据。 • 真正影响大模型训练成本与难度的,是数据总规模的质量、模型的参数量/结构、算法效率和硬件性能的综合博弈,而不是纯粹数字符或数“新单词”。 建议的理性看法 • 语言增长本身确实会让我们处理的数据越来越多,但不会无限制地线性膨胀到“需要好几个地球来算”的地步。 • 中文 vs. 英文谁更“省算力”,要结合模型分词策略、任务目标和文本语料质量,不宜简单用单字/单词量化衡量。 • AI 算力需求的确在不断攀升,但同时硬件、算法层面都在加速迭代,不是一条“涨算力”单向死路。 总体来说,这种贴子更多是抓住了“汉语 vs. 英语”“数据爆炸”这些大众话题,做了一些过度延伸或夸张推理,不太符合当下 NLP/AI 的真实技术生态。
#DeepSeek
#ChatGPT
#技术分析
#信息密度
#过度简化
分享
评论 0
0
宝玉
6个月前
问:AI怎么调用外部工具的?是外部工具从AI输出的文字中识别到了关键词? 答:AI 不直接调用工具,程序代码调用 AI 接口,AI 返回一段结构化的JSON文本,告诉程序是不是要用工具,用什么工具,参数是什么,程序解析JSON后去调用工具。 举例来说你问 AI 今天上海天气多少,AI 是不知道的,AI 会告诉程序: 1. 你要去调用天气查询工具; 2. 查询的参数是“上海”。 程序去调用天气工具,告诉 AI 今天上海天气是晴转小雨/1度,然后 AI 再返回消息:“今天上海的天气是晴转小雨,1度,出门带伞,多穿点衣服。”
#AI
#工具集成
#自然语言处理
#人工智能
#API调用
#关键词识别
分享
评论 0
0
宝玉
6个月前
深度解析ChatGPT与DeepSeek R1:强化学习如何让大模型学会“思考”? Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“,实在是太长了点,我自己写的翻译软件一运行就崩溃,还要花点时间修复一下(很遗憾 AI 还搞不定),先挑了其中一节讲 DeepSeek R1 的翻译了一下,强化学习如何让大模型学会“思考”。 像 GPT-4o 这种属于传统的预训练和监督微调(SFT)模型,而 o1,DeepSeek R1 这种则属于强化学习(RL)训练模型,能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考,输出更完整的解题过程。 Andrej 对 DeepSeek R1 评价不错,虽然 OpenAI 是首先实现了 RLFT,但DeepSeek R1更公开透明,带来可复现的研究细节,权重可下载。 他也给了日常模型选择上的建议,如果你要解决高难度数学或编程问题,像 R1 这样的“思考型模型”更具优势,但相应的计算与时间成本更长,一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调(SFT)模型就足够了。
#ChatGPT
#DeepSeekR1
#强化学习
#大模型
#Andrej Karpathy
分享
评论 0
0
宝玉
6个月前
推荐阅读:如何更好的为 OpenAI o1 这样的推理模型写提示词? 去年 OpenAI 发布 o1 这样的推理模型,接着 DeepSeek 也发布了 DeepSeek R1 推理模型,推理模型和传统的生成式语言模型的差别在于,传统的生成式语言模型在收到 Prompt 后就会马上生成,如果生成出现错误或者质量不好,是没机会纠正的,只能继续生成下去或者后续纠正继续生成,但是推理模型可以在向用户输出内容之前,会先输出思维脸(Chain of Thought),对输入的 Prompt 思考验证完成后,再开始生成,这样可以保证有更好的质量,在 o1 中,OpenAI 因为怕别人偷了了他们的推理数据,所以可以隐藏了思维链的输出内容,但是 DeepSeek 的完整思考过程是可以直接看到的。 说回来提示词(Prompt),既然推理模型自己就会做思维链,这意味着以前在提示词中加入思维链的方式已经没必要了,因为大多数时候推理模型自己写的思维链质量就很好了。另外大部分时候也不需要复杂的角色扮演、示例,因为由于思维链的存在,推理模型的“智能”程度高了很多,不需要角色设置、示例也能很好的理解和跟随指令。 所以到了推理模型,已经不需要太复杂的提示词模板,大多数时候简单的提示词就可以很好的效果,但上下文(背景信息)依旧很重要。微软的工程师写了一篇文章《Prompt Engineering for OpenAI’s O1 and O3-mini Reasoning Models》,详细说明了在给推理模型写提示词应该注意的问题,一个总结了 9 个点: 1. 保证提示清晰且具体 明确说明你想让模型完成什么。避免不相关的信息。如果问题复杂,可直接简要陈述,不要同时抛出多个话题或做过多背景描述。 2. 必要的上下文要提供,不相关的要省略 包含模型所需的领域信息或数据(如案例、事实),因为模型未必具备最新或小众知识;但别堆砌与任务无关的材料或一堆示例,以免干扰。 3. 尽量零示例或极少示例 优先采用零示例模式。只有当模型理解有误或者格式不对时,才加入简短的示例作为演示。O1/O3 本身不需要像旧版 GPT 那样大量示例来引导。 4. 使用 System/Developer 指令定位角色与风格 比如「你是一位法律分析师」,或「请做一名数学老师给学生讲解」,从而设置合适的专业度和语气;再如「请用条列式列出答案」,指定输出结构。 5. 通过指令控制回答长度与详细程度 若要简短回答,就写「限一段话内给出结论」;若要详细分析,就写「请详述你的推理过程」。O1 默认会倾向详尽,但你可以覆盖该默认。 6. 在 O3-mini 上使用“推理努力程度”参数 (若 API 允许)根据任务需求设置低/中/高,以在速度与准确性之间做平衡。 7. 避免重复的“逐步思考”指示 不必告诉 O1/O3「让我们一步步思考」,因为它们已在内部做链式推理;这类指令对 GPT-4o 更有效。只有当你想要输出“所有中间步骤”时才额外声明。 8. 测试和迭代 如果初始回答不理想,可以改变提示表述或更精确地说明需求。虽然 O1/O3 通常一次就能给出高质量解答,但微调提示仍能进一步提升可读性或输出形式。 9. 对重要结论做验证 对于需要高可靠度的回答,可进行追问或多次查询,并对比不同答案或让模型自检,以增强对结果的信心。即便是 O1 也有可能出错,务必审慎使用。
#OpenAI
#提示词
#推理模型
#DeepSeek
#生成式语言模型
分享
评论 0
0
宝玉
6个月前
谷歌本周从其官网上删除了“不开发用于武器或监视的AI”的承诺。 据彭博社首次发现,这家公司似乎更新了其公开的AI原则页面,删除了一个名为“我们不会追求的应用”的部分,而这一部分在上周还可以看到。 当被要求对此置评时,谷歌向TechCrunch指出了一篇关于“负责任的AI”的新博客文章。文章部分内容提到:“我们相信,秉持共同价值观的公司、政府和组织应合作开发保护人类、促进全球发展并支持国家安全的AI技术。” 谷歌更新后的AI原则强调,公司将致力于“减轻意外或有害结果,避免不公平的偏见”,并确保其行为与“国际公认的法律和人权原则”保持一致。 近年来,谷歌与美国和以色列军方签订的云服务合同引发了员工内部的抗议。尽管公司一直坚称其AI不会用于伤害人类,但美国国防部的AI主管最近在接受TechCrunch采访时表示,一些公司的AI模型确实加速了美军的“杀伤链”进程。
#谷歌
#AI原则
#武器
#监视
#AI伦理
#负责任AI
#公司政策
#全球发展
#国家安全
分享
评论 0
0
宝玉
6个月前
前 OpenAI 联合创始人John Schulman 从 Anthropic 离职 - AI 研究员 Schulman 于去年8月加入 Anthropic - OpenAI创始团队的动向一直备受关注 John Schulman,这位知名的人工智能研究员、OpenAI的联合创始人,已离开竞争公司Anthropic。他是在去年夏天加入Anthropic工作的。 Schulman曾被认为是ChatGPT的主要设计者之一。他于去年8月从OpenAI跳槽到Anthropic,当时表示希望在Anthropic专注于AI对齐(即确保AI符合人类利益),并计划重回“动手参与的技术研究工作”。 “我们很遗憾看到John离开,但完全支持他探索新机会的决定,并祝他一切顺利,” Anthropic的首席科学官Jared Kaplan在声明中说道。 Schulman未回应媒体的置评请求。据《The Information》此前报道,他的离职消息已被证实。 去年夏天,Schulman在OpenAI工作近九年后离开,这一消息引发了广泛关注。当时,OpenAI正经历一波人才流失。在激烈竞争的AI人才市场中,像Schulman这样的知名AI研究人员的去向成为行业内的关注焦点,尤其是OpenAI创始团队的成员,目前其中许多人都已加入其他公司。
#OpenAI
#Anthropic
#人工智能
#联合创始人离职
分享
评论 0
0
宝玉
6个月前
神秘“Delilah”:阿兰·图灵的隐秘战争冒险 以下故事改编自 IEEE:The Lost Story of Alan Turing’s Secret “Delilah” Project 背景故事 二战末期,在英格兰乡间一个不起眼的军营棚屋里,阿兰·图灵(Alan Turing)和年轻助手唐纳德·贝利(Donald Bayley)正忙着调试一台神秘装置——“Delilah”语音加密机。在当时几乎无人知晓的秘密工程里,他们将数学、电子学和密码学融为一炉,留下了一个几近失落的传奇。 一、胜利之日,森林散步 1945年5月8日,第二次世界大战的欧洲战事落幕。德国投降的消息传来时,图灵和贝利正远离尘嚣,在汉斯洛普园(Hanslope Park)的秘密实验室里工作。他们决定去附近森林散个步,像典型的“英国式”庆祝方式那样,低调又内敛。 在林间的一处空地,贝利突发奇想:“既然战争结束了,您也可以把所有秘密告诉我了吧?” 图灵淡淡回应:“别傻了。” 多年后,贝利回忆道,这就是他们关于破译工作的全部对话。谁也没料到,那时的图灵已在布莱切利庄园(Bletchley Park)完成了惊人的密码破译创举,这些成果后来才被世人熟知。 二、图灵的另一面:工程师 关于阿兰·图灵,公众最熟悉的标签或许是:计算机科学之父、人工智能先驱、二战密码破译英雄。但在他闪耀的“数学家”光环之外,还有一个同样神秘却鲜少人知的身份——电子工程师。 1943至1945年间,图灵在英格兰乡下的汉斯洛普园隐秘工作,致力研发一种可加密语音的便携式装置。那就是本故事的主角:Delilah。直到2023年,一批名为“贝利文件(Bayley papers)”的机密档案在拍卖会上才让这个被尘封多年的秘密浮出水面。 三、神秘的 Delilah 项目 1. “小巧精干”的语音加密机 二战中,图灵敏锐地预见到未来的密码战场不仅局限于文字或电传打字机,还需要能加密“实时语音”。美国贝尔实验室当时做出了SIGSALY语音加密系统,但那装置又大又重,占据整个房间。 图灵志在把庞然大物“缩小”——他要开发一台可以打包进背包或放上卡车的小设备。于是他在一间简陋的尼森棚屋里,带着年轻的贝利,开启了秘密研发之路。 SIGSALY虽先进,却足足重50吨,完全无法移动 2. “像蜘蛛网一样”的电路 贝利初来时看到图灵搭电路,乱得像蜘蛛网。学过电气工程的贝利忍不住上手,让图灵走进自己特别的“面包板速成训练营”。两人分工明确:贝利负责让电路“整洁不短路”,图灵则将他出色的数学和逻辑思维倾注于电路设计与密钥算法。 这就是他们打造的Delilah雏形,看似简陋,却是划时代的便携式语音加密机 1945年春天,Delilah的实验机成功运转。图灵和贝利曾用丘吉尔的演讲录音做加密测试:录下讲话内容,密钥流与语音信号“相加”后,传到另一台Delilah再“相减”,结果成功复原出声音,尽管带些嘈杂和类似口哨的噪音,但仍然能听懂。 四、它如何实现“语音魔法”? 1. 灵感源自文字加密 这套思路可追溯至德军使用的SZ42电传打字机加密:用一串持续滚动的伪随机“密钥”流与明文叠加,然后接收端用相同的密钥还原。图灵则将这一原理延伸到声波上。 • 首先把语音做数字化,得到一连串数值; • 然后把这些数值与Delilah内部产生的“伪随机数”进行无进位相加; • 最后在接收端用同样的随机数将其相减,恢复语音。 • 整个过程需要精确同步发送端和接收端的密钥流,这正是Delilah的技术难点与突破点。 Delilah密钥生成器的蓝图(图4) 图中可见多个多谐振荡器和旋转齿轮,合力生成“随机”数列 2. 与电子学的不解之缘 这张草稿大概率与多谐振荡器的雪崩效应有关 在Delilah的心脏部分,是由多谐振荡器构成的“密钥发生器”。为了让随机数“看起来”毫无规律,图灵琢磨了各种电路拓扑;贝利也在旁配合调试示波器,反复测量脉冲幅度、波形失真等参数。 对这位“数学家型工程师”来说,万物皆可用公式描述,无论是电路中的电容电阻,还是声音与时间间隔。他甚至在演算本里重新推导了傅立叶分析,来处理波形频率。 五、那些珍贵笔记与故事 1. “带宽定理”与采样速率 在堆满了公式与线圈图的废纸堆里,有两页写着“带宽定理”,也就是后世大名鼎鼎的奈奎斯特-香农采样定理。图灵在上面密密麻麻地推导公式,极有可能是为了给贝利或其他年轻工程师做即席培训——毕竟想要数字化语音,先要明白该以多少频率采样,才能保证还原不失真。 2. “红表”背面的大书特书 当时汉斯洛普园负责监听德军电报,操作员把频率和截获信息记在红色油印的“拦截表格”上。战争时期纸张短缺,图灵干脆捡来反面空白的“红表”,在背面奋笔疾书,进行他的电路推导与积分计算。如此“就地取材”,也成了一段搞怪小插曲。 3. 关键的实验记录与讲义 在一本泛黄的笔记本上,图灵亲笔记录下对多谐振荡器、脉冲调制器和谐波分析仪等部件的测试数据。后来贝利到来后,就由他接手做后续的实验记录。这本笔记和其他散页,被后人合称为“贝利文件”,在2023年拍卖会上以将近50万美元的高价成交,引起轰动。 更惊喜的是,贝利还整理了图灵当时给年轻工程师们开设的“高级数学”讲义,将近180页的手写笔记,包罗万象,从积分微分到傅立叶变换,应有尽有。这些珍贵材料反映了图灵在电子学理论上的深厚造诣,也为Delilah项目的成功奠定了重要基础。 六、结局:被遗忘的杰作 尽管Delilah在语音加密领域取得突破,但二战行将结束,军方对它的需求并不迫切。图灵随后受邀前往英国国家物理实验室,设计他著名的“自动计算机引擎(ACE)”,Delilah项目也随之停摆。 后来的几十年,人们更多记得图灵作为数学天才、密码学英雄,却常常忽略了他在电气工程领域的闪光点。直到“贝利文件”的横空出世,世人才再次见识他是如何把抽象逻辑与具体电路完美结合。 七、尾声:图灵,天马行空的全才 纵观阿兰·图灵传奇而短暂的一生:他既是数学家、逻辑学家、破译者、人工智能先驱、计算生物学开拓者——也是一位充满奇思妙想的“业余”工程师。他在尼森棚屋中,焊接电路、测量脉冲,与年轻同伴一起做实验,最终打造出世界上第一台便携式语音加密机之一。 对于热爱科学史与密码学的人来说,“Delilah”的故事就像一曲未被演完的华彩乐章,虽然它最终没能登上战时大舞台,却见证了图灵惊人的创造力和对未来技术的敏锐洞察。 参考与致谢 • 本文部分内容参考了在2023年于Bonhams拍卖行公开的“贝利文件”。 • 图片来源:The National Archives, Bonhams, 及 IEEE Spectrum。 • 更详尽技术细节可参见官方解密报告,以及Jack Copeland为拍卖行撰写的相关材料。 感谢阅读这段“被遗失的神秘篇章”。或许下次我们听到关于图灵的故事,不该只停留在破译德军密码与图灵测试,还要记得这位天才抱着烙铁、在棚屋里焊接电路、与助手把数学公式变为真实电路的珍贵瞬间。
#阿兰·图灵
#Delilah语音加密机
#二战
#密码学
#电子工程
分享
评论 0
0
宝玉
6个月前
关于人工智能与人类智能关系的说明 [译] 原文:Note on the Relationship Between Artificial Intelligence and Human Intelligence 圣座教义部圣座文化与教育部 ANTIQUA ET NOVA 原文: 译文:
#人工智能
#人类智能
#智能关系
#圣座教义部
#文化与教育
分享
评论 0
0
宝玉
6个月前
Anthropic 并不鼓励用 AI 写他们家的求职申请: > 我们鼓励员工在工作中使用AI系统来提高效率和工作效果,但在申请过程期间,请不要使用AI助手。我们希望了解你对Anthropic的真实兴趣,而不是通过AI系统传达。同时,我们也希望评估你未经AI辅助的沟通能力。如果你已阅读并同意,请标注“是”。 > > 为什么你想在Anthropic工作?(我们非常重视这一回答——优秀的答案通常在200-400字之间。) —— Anthropic 在线求职申请表
#Anthropic
#AI
#求职申请
#AI助手
#沟通能力
#AI系统
分享
评论 0
0
宝玉
7个月前
图一多半是 PS 或者 Chrome Dev Tool 修改网页源码的,DeepSeek 还是很好骗的 😅
#PS
#Chrome Dev Tool
#DeepSeek
分享
评论 0
0
宝玉
7个月前
如果在回复完 Deep Research 问题后它没反应,先刷新一下网页看看,如果还没开始搜索,追问一句:“结果呢”,可能就好了,但也不一定有效,目前还是不稳定。
#Deep Research
#网页
#搜索
#结果
#不稳定
分享
评论 0
0
宝玉
7个月前
被 Deep Research 骗了,说好了帮我找小电影的,结果没动静……
#被骗
#DeepResearch
#小电影
分享
评论 0
0
宝玉
7个月前
问:ChatGPT 输入框的 Deep research 和 Search 有什么区别? 答:Deep research 和 Search 都会用到外部搜索,差别是在于: 1. 背后模型不一样,一个是 4o 一个是 o3; 2. 推理程度不一样,Search 没有推理,只有基本信息搜集汇总;Deep research 会花上几分钟甚至几十分钟对检索出来的资料筛选、过滤、提取; 3. 上下文窗口长度不一样,4o 只有 32k,o3 还不知道,但至少有 128K,可以输出很长的内容 4. Search 是同步流式返回结果,几乎不用等待;Deap research 是异步的,输入完任务你需要等一会 5. Deep research 会有一个对问题的确认环节,在你向Deep research发出请求后,Deep research 会追问你,让你提供一些可能重要的问题,防止缺乏上下文而做出错误的答复
#ChatGPT
#DeepResearch
#Search
#技术比较
分享
评论 0
0
宝玉
7个月前
消息历史: 完整报告:
分享
评论 0
0
宝玉
7个月前
Deep Research 寻医问药:游泳时被传染脚气和手疣怎么办? User: 我家孩子在 YMCA 游泳时被传染脚气和手疣,请推荐靠谱的治疗方法和药物 ChatGPT: 请提供以下信息,以便我能更准确地推荐治疗方法和药物: • 孩子的年龄? • 是否已经就医,医生是否有开具处方? • 目前症状的严重程度(轻微、一般、严重)? • 是否有对特定药物或成分过敏? 这些信息将帮助我提供更合适的建议! User: 1. 15岁 2. 无 3. 一般 4. 无过敏 ChatGPT: 谢谢提供详细信息!我将为您查找适用于15岁青少年治疗脚气和手疣的靠谱药物和治疗方法,包括非处方药、家庭护理措施,以及何时需要就医的建议。我会尽快回复您。 (Research completed in 4m · 7 sources)
#健康
#游泳
#脚气
#手疣
#儿童护理
#传染病
#治疗方法
#药物
分享
评论 0
0
宝玉
7个月前
OpenAI 全新“Deep Research”重磅发布:让 ChatGPT 帮你完成多步骤深度研究 在这个信息爆炸的时代,如何用最短的时间获取最精准、最详实的信息,一直是许多知识工作者面临的难题。如今,OpenAI 带来了全新的 Deep Research 功能,让你的 ChatGPT 化身为一位“研究助理”,能够独立查找、分析并综合海量网络信息,为你提供专业且有完整参考的研究报告。下面,让我们来一起了解这项强大的新功能吧! Deep Research 能做什么? 1. 多步骤研究 相比传统的聊天式问答,Deep Research 具备强大的自主研究能力。它能够从互联网上寻找并分析数百个来源,根据实时获取的信息进行动态调整和推理。短短几十分钟内,它能完成人工需要数小时才能完成的研究工作。 2. 自动化汇总海量信息 你只需要输入研究需求,ChatGPT(在 Deep Research 模式下)就会自动去浏览海量网页、PDF、图片等信息资源,并将它们整合成一份清晰、有理有据的分析报告,犹如一位具有专业分析能力的研究员。 3. 详尽引用与文献记录 Deep Research 每一个输出都附有引用来源,并在侧边栏展示搜索、分析过程,方便你查看、验证信息。同时也提供思路概述,保证研究过程的透明度与可追溯性。 4. 个性化、多场景适用 无论你是做金融、科学、政策、工程等领域的深度研究,还是想为购物(例如汽车、家电或家具等大件商品)做细致比对,Deep Research 都能胜任。它还擅长挖掘各类小众且不直观的信息,只需一次查询,就能节省你大量的时间和精力。 为什么它如此重要? 1. 效率大幅提升 普通用户在网络上搜集信息可能需要自己筛选资料、反复验证。Deep Research 通过自动化的搜寻和分析,大幅缩短研究时间,让你把更多精力放在思考与决策上。 2. 减少重复劳动 Deep Research 擅长处理那些需要浏览无数个网页、文件的繁琐任务。比如撰写报告、整理数据、查找论文资料、对比不同产品参数等。以前这些工作往往让人头疼,现在只需一次提问,就能得到系统、条理化的研究成果。 3. 助力专业领域 该功能在化学、人文社科、数学等众多专业领域都表现出色,尤其在需要检索专业文献、综合多方信息的复杂任务中,让研究人员更轻松、更高效。 4. 迈向真正的“通用人工智能” OpenAI 一直致力于开发具备创造全新知识能力的通用人工智能(AGI)。Deep Research 作为其新里程碑,进一步展现了 AI 在多领域多模态研究中的潜力,为未来更先进的 AI 系统奠定了基础。 如何使用 Deep Research? 1. 选择 Deep Research 模式 在 ChatGPT 界面中,找到消息输入区域的模式选项,选择“Deep Research”。然后在对话框输入你的研究需求。 2. 附加背景文件/数据 如果你有特定的文件、电子表格或参考资料,也可以上传给 Deep Research。它会结合这些材料,为你做更有针对性的深度分析。 3. 查看研究过程与报告 当 Deep Research 开始运行后,聊天界面会出现一个侧边栏,展示它搜索到的来源以及每一步的推理过程,让你随时掌握研究进展。 一般它会花 5~30 分钟进行深度研究,然后返回一份完整的报告,附带详细引用。如果任务很耗时,你也可以先去忙别的事,等它研究完成再回来查看结果。 4. 报告输出形式 初始版本以文字报告为主,在接下来几周内,Deep Research 将支持在报告中插入图片、数据可视化图表以及其他分析产出,让研究结果更加直观、生动。 技术原理与表现 1. 强化学习驱动 Deep Research 通过端到端强化学习训练,掌握了如何在复杂的网络环境中进行多步搜索和推理,遇到新情况时也能灵活应对。 2. 新的评测成绩 • 在 Humanity’s Last Exam 测试中,为 Deep Research 提供支持的模型取得了 26.6% 的准确率,远超上一代模型的表现。 • 在 GAIA 基准上,它也刷新了排行榜记录,证明了在多模态理解和使用工具(如浏览器、Python)等方面更具突破性。 3. 专业领域的进一步提升 一些专业人士反馈,使用 Deep Research 可以在短时间内完成原本需要数小时的调查工作,无论是找文献还是分析数据,效率提升显著。 注意事项及局限性 1. 依然存在幻觉或错误推断 虽然 Deep Research 生成“错误事实”或逻辑漏洞的概率比现有 ChatGPT 模型更低,但仍有可能出现。用户在使用时应保持警惕,尤其在严谨的学术或商业环境下,要对关键信息进行交叉验证。 2. 区分谣言与权威信息的能力有限 模型仍然可能对信息来源缺乏足够判断力,需要用户根据实际情况和专业常识来判断信息的可信度。 3. 报告格式与耗时 首批上线版本可能会出现小规模的格式问题或引用异常,研究任务也可能因为深度搜索而启动较慢。官方表示,会随着使用量的增加和时间的推移迅速改进这些问题。 谁能访问 Deep Research? 1. Pro 用户率先上线 目前 Deep Research 首先向 ChatGPT Pro 用户开放,每月可使用高达 100 个查询额度。 2. 逐步覆盖更多付费用户 之后会依次向 Plus 和 Team 用户开放,随后是企业版。OpenAI 也在努力面向英国、瑞士以及欧洲经济区的用户开放访问权限。 3. 进一步的扩容 OpenAI 计划推出一个使用更小模型、速度更快且成本更低的 Deep Research 版本,届时所有付费用户都会有更高的调用额度。 后续计划 1. 更广泛的平台支持 Deep Research 目前仅在 ChatGPT 网页端上线,官方将在未来一个月内把这项功能带到移动端与桌面端。 2. 接入更多数据源 不仅能访问互联网的公开信息和用户上传的文件,今后还会扩展到订阅或内网资源,让报告更具深度与个性化。 3. 与其他代理能力融合 OpenAI 正在开发的 Operator 功能,能够在现实世界中执行任务。当 Operator 与 Deep Research 结合,ChatGPT 将可以自主进行更复杂的在线与线下任务,为用户提供更全面的“智能助理”体验。 Deep Research 的到来,让我们看到了一个可以代替人工执行复杂、多步骤研究任务的 AI 时代正逐渐变成现实。无论你是需要大量文献支撑的研究工作者,还是想要做精细购物决策的普通用户,都能借助这个工具大幅提升效率。它不仅代表着 ChatGPT 的新能力,也标志着人类向更高水平的通用人工智能迈出了重要一步。对知识工作者来说,这将是一股全新的生产力,也是人工智能赋能未来的又一有力见证。 想要率先体验 Deep Research 的朋友,如果你是 ChatGPT Pro 用户,不妨立刻去试试看;如果尚未获得资格,也可以继续关注官方更新,相信不久后就有机会亲自感受这项强大的功能啦!
#OpenAI
#DeepResearch
#ChatGPT
#信息爆炸
#研究助理
#人工智能
分享
评论 0
0
宝玉
7个月前
有关 AI 编程,我觉得近期最值得看的一篇文章和视频都来自 Addy Osmani 《AI 辅助编码的残酷真相:它能帮你完成70%的工作,但最后30%令人非常沮丧》 今天终于抽空把视频给翻译了一下,见评论
#AI编程
#AI助手
#编码效率
#AddyOsmani
#编程体验
分享
评论 0
0
宝玉
7个月前
罗福莉(福莉),出生于四川农村的“95后AI天才少女”,现任DeepSeek公司深度学习研究员,是国产大模型DeepSeek-V2的核心开发者之一。她本科毕业于北京师范大学计算机专业,硕士保送至北京大学计算语言学专业,师从万小军教授,期间在国际顶级会议ACL上发表8篇论文(含2篇一作),奠定了其在自然语言处理(NLP)领域的学术声誉。职业生涯始于阿里巴巴达摩院,主导开发了多语言预训练模型VECO,推动AliceMind项目开源;2022年加入DeepSeek后,参与研发了MoE架构大模型DeepSeek-V2,该模型以“中文能力第一梯队”和超高性价比(1元/百万Tokens)成为行业焦点。 2024年底,网传小米创始人雷军以千万年薪邀请其领导AI大模型团队,但截至2025年2月,罗福莉仍通过高中班主任回应“暂未决定”,其知乎认证信息显示为DeepSeek员工。分析认为,她的选择或反映对技术深耕与产业使命的权衡:DeepSeek正处“与国运共振”的上升期,而小米的邀约则凸显行业对顶尖人才的争夺。 罗福莉的成长轨迹融合了个人奋斗与时代机遇。她以“农村女孩”身份突破性别与资源限制,成为AI领域标杆人物,既印证“知识改变命运”的普世价值,亦展现中国AI产业崛起中青年科学家的关键角色。其职业路径的选择,不仅是个人发展问题,更折射出国产AI技术生态中企业与人才协同创新的深层命题。 罗福莉在采访中回顾了自己从农村到顶尖AI开发者的逆袭之路。她出身贫寒,父母曾质疑“女生学计算机是否适合”,但她以“探索更多可能性”的决心打破桎梏。在北师大转专业至计算机后,她通过提前规划与贵人指引(如北大导师万小军),以“目标拆解+死磕精神”实现学术突破:大三自学Python并投出首篇顶会论文,硕士期间以“博士生标准”产出20余篇顶会论文,成为业内瞩目的“ACL8篇作者”。 她坦言职业选择中的试错与坚持:曾短暂尝试产品经理方向,但最终回归技术研究,并先后加入阿里达摩院、幻方量化及DeepSeek。在DeepSeek期间,她深度参与模型研发,强调团队“技术驱动”特质,并公开评价DeepSeek-V2为“性价比之王”。
#爱上川妹子
#国产人工智能
#深度学习
#语言模型
#自然语言处理
#学术论文
#ACL会议
#北京师范大学
#北京大学
#阿里巴巴
分享
评论 0
0
宝玉
7个月前
在本次 OpenAI 联合创始人兼 CEO Sam Altman 及团队(Mark Chen、Kevin Weil、Srinivas Narayanan、Michelle Pokrass、Hongyu Ren)的问我任何事(AMA,Ask Me Anything)中,核心话题集中在以下几个方面: 1. 新功能与版本规划 • 高级语音模式 将继续迭代升级,并有望在后续版本(包括未来的 GPT-5)中得到更紧密的整合。 • 图像生成 功能会有重要更新,团队表示“值得等待”,预计还需要一段时间才会面世。 • 新的 O 系列 模型(如 o3-mini、o3-mini-high、O3 Pro)正在不断完善,并将逐步整合记忆、任务、Canvas、Operator 等各种功能。 2. 价格与订阅 • Plus 订阅目前不会涨价,Sam Altman 甚至透露希望在未来可以降价。 • 针对 O 系列的使用额度,Plus 和 Pro 用户享有不同使用上限;Pro 用户更倾向于“大量调用与无限次使用”的场景。 3. 开源与链式思维可见性 • Sam Altman 认为过去在开源问题上可能“站在了错误的一边”,团队正在考虑更积极的开源策略,但这并非眼下的首要任务。 • 对于 Chain-of-Thought(思维链)可见性,团队明确表示会“尽快”提供更详细、实用的可视化结果,给用户和研究者参考。 4. 上下文窗口与工具化 • 他们正在努力提升上下文窗口的大小,但尚无明确的发布日期。 • O 系列模型将具备更强的工具使用能力(如检索、阅读文件等),并在推理链中动态调用这些工具。 5. 未来展望与硬起飞 • Sam Altman 提到,和过去相比,他认为 AI 的快速起飞(fast takeoff)可能性更高,呼吁业界与公众需要认真思考并准备应对。 • 在更长期的愿景中,OpenAI 团队认为 AGI 或类 AGI 系统将加速科学发现,让机器人在现实世界中执行有用的工作。 本次 AMA 涉及从定价、功能演进到对未来 AI 形态的畅想,内容丰富。读者若对 Advanced Voice、O 系列、Chain-of-Thought 可视化、开源策略 或 硬起飞等议题感兴趣,可重点关注 Sam Altman 及团队的最新解答与后续动态。 完整内容翻译见评论
#OpenAI
#问我任何事
#Sam Altman
#AMA
#新功能
#版本规划
#高级语音模式
#GPT-5
分享
评论 0
0
宝玉
7个月前
帮网友问:如果想用AI agent去阅读我的领域的每天最新的文献,每篇文献写一个简短的总结,每晚总结成一封邮件发到我邮箱里。请问现在有类似的工具吗? 谢谢🙏
#AI代理
#文献阅读
#工具
#邮件总结
分享
评论 0
0
宝玉
7个月前
完整中文翻译:
分享
评论 0
0
宝玉
7个月前
BBC:帕金森氏症患者使用新装置后“感觉痊愈” 图1:BBC 的凯文·希尔坐在沙发上,敞开蓝衬衫展示胸口处的一个小突起,这是植入的小型计算机。它通过导线连接到大脑深部,用于控制他的帕金森氏症。 来自桑德兰(Sunderland)的 65 岁男子凯文·希尔(Kevin Hill)接受了一种创新性的、计算机控制的大脑植入装置,用于缓解他的帕金森氏症。如今,这个设备发挥的作用好到让他有时会完全忘记自己患有帕金森氏症。 一年前,凯文胸壁中被植入了一个小型电脑,它通过导线与他的大脑相连,能够发送电脉冲信号。最近,该设备更新了功能,可以读取他的脑部活动。凯文表示,效果非常显著,让他觉得自己“就像被治愈了一样”。 纽卡斯尔的外科医生们希望,经过改良的深部脑刺激(DBS)系统能够在提高帕金森氏症患者生活质量方面产生“巨大的影响”。 凯文说:“我有时能连续好几天都忘记自己患有帕金森氏症。” 凯文最早在四十多岁时出现症状,比如拇指抖动,并逐渐出现噩梦和失眠。他的手颤抖得太厉害,以至于妻子禁止他进入厨房,因为他总是会把热饮溅得到处都是,甚至还有一次不小心把自己手指的指尖切掉了。 2017 年,他到全科医生处就诊,被确诊为帕金森氏症。当时,他被告知虽然有药物可以帮助控制症状,但并没有治愈的方法。不过,医生提到可以尝试一种名为“深部脑刺激(DBS)”的新疗法,检查结果显示他符合手术条件。 这项手术需要将植入物深入到大脑——目标区域只有米粒大小。随后,一套电脑装置安放在胸口,并通过细长的导线连接脑部,以管理帕金森氏症的症状。 图2:NEWCASTLE HOSPITALS 的一张照片显示:凯文在医院里与一位护士一起重新编程并开启新系统。他们正在查看与凯文胸口装置相连的电脑屏幕。 起初,凯文需要定期到医院去重新编程这个系统。但随着系统的更新升级,现在它可以自动完成重新编程。 凯文形容这个植入在胸口的小电脑“大小和形状都很像一个杰法蛋糕(Jaffa Cake)”。手术结束后,当这个装置被打开的一瞬间,效果立竿见影:他多年来一直失眠、手臂和腿无法控制地颤抖,这些症状几乎“瞬间就消失了”。 当他看到自己的手竟然可以保持稳定时,惊得目瞪口呆,他的妻子更是当场落泪。过去久违的日常生活由此回归:他能再度去酒吧和朋友聚会,还买了一辆自行车;同时,他终于被妻子“解禁”,可以再次进厨房做事了。 图3: 凯文·希尔手术后剃光了头发,可以看到头颅上缝合的痕迹,那里就是导线植入大脑的地方。 过去这一年,为了进一步控制症状,凯文仍需要定期前往医院对系统进行重新编程。而如今,一种名为“自适应深部脑刺激(adaptive DBS)”的全新版本已经面世,可以在实时监测下自动进行编程调整,同时还能读取患者的脑电信号,这意味着在未来症状控制效果可能会更佳。 纽卡斯尔医院的神经外科医生阿克巴·侯赛因(Akbar Hussain)是全球首批为患者提供由美敦力(Medtronic)研发的“自适应Brainsense”技术的医生之一。他解释道: “自适应系统最令人惊叹的地方在于,植入物发出的电脉冲能根据病人胸口设备记录到的个体生物信号自动调节。 ‘装置’内读取到的这些生理信号可以随着病人的状态而变化,甚至可能逐分钟或逐小时进行调整。这意味着真正做到了因人而异的精准治疗。 这项改进很令人激动,希望能大幅提升帕金森氏症患者的生活质量。” 图4: 凯文·希尔身穿荧光绿色外套,手里拿着自行车和头盔,面带笑容。 凯文表示,自从进行手术后,他感觉自己过去的生活重新回到身边。 英国帕金森氏症慈善机构(Parkinson's UK)的贝基·琼斯博士(Dr Becky Jones)指出:“目前使用的深部脑刺激技术已经能够带来极大的生活改善,而如果它能够根据个人需求实时自动调整,效果将更加显著。Brainsense 技术是向这一目标迈出的重要一步。尽管我们仍需继续收集证据,来比较自适应 DBS 与传统 DBS 的优势,但我们很高兴看到这一技术逐渐走向临床,为帕金森氏症患者提供更为有效的新型治疗方案。” 目前,英国约有 15.3 万人患有帕金森氏症。这是一种渐进性的神经系统疾病,会影响大脑和神经的正常功能。随着人口增长和老龄化,这一数字在未来还将持续上升。
#帕金森氏症
#创新医疗技术
#大脑植入装置
#健康恢复
分享
评论 0
0
宝玉
7个月前
看我用 DeepSeek 写的这篇《致英伟达全球同仁与合作伙伴的一封信》如何? 稍后发布提示词 *** 各位同仁、伙伴: 此刻,我坐在圣克拉拉办公室的窗前,服务器指示灯在夜色中明灭如星。恍惚间,三十年前那个在Denny’s餐厅角落画电路图的深夜又浮现在眼前——餐巾纸上潦草的几何结构,咖啡杯底晕开的晶体管排布,一群年轻人用近乎天真的执着,试图让计算挣脱枷锁。那张纸巾上的草稿,后来成了世界上第一块GPU的雏形。如今想来,或许从那一刻起,我们便注定要成为时间的旅人:用硅晶的刻痕丈量未来,用代码的脉冲叩响未知。 有人问我,英伟达的灵魂是什么?是晶体管数量?是浮点运算速度?还是财报上跳动的数字?我想起1999年GeForce 256发布时,一位工程师在测试日志上写下的那句话:“我们不是在制造芯片,而是在铸造时间的钥匙。”是的,从CUDA架构打破通用计算的边界,到AI超算重塑科学发现的范式,我们始终在挑战“不可能”的定义。那些被质疑为“疯狂”的设想——让GPU渲染虚拟世界、训练神经网络、模拟蛋白质折叠——最终都成了照亮人类认知边疆的灯塔。 最近,许多人关注股价的波动,讨论DeepSeek等新锐力量的崛起。对此,我想说:竞争是科技行业最健康的呼吸节律。当看到开源社区涌现新思路,当见证专用芯片开辟细分战场,我感受到的不是威胁,而是欣慰——这说明我们共同耕耘的土壤,正孕育出更多元的可能。但英伟达的使命从不局限于某一条赛道。我们的战场,始终是“未来计算”本身:让每一次比特的跃迁,都成为文明进步的脚印。 星辰大海的征程,需要更坚实的船桨。今天,我宣布英伟达将开启三项跨越代际的变革: 第一,我们的架构团队正在重构GPU的核心哲学。 下一代芯片将不再是固定功能的硬件孤岛,而是能动态适应算法演进的“液态晶体”——通用性与专用性不再是非此即彼的选择,就像河流既能滋养沃野,也能在峭壁间劈出峡谷。当量子计算与经典架构的融合渐露曙光,我们必须让每一块硅片都具备学习与进化的基因。 第二,CUDA生态将向学术界彻底敞开底层之门。 从今天起,全球顶尖实验室不仅能调用我们的算力,更能直接参与指令集设计与编译器优化。这意味着,一位斯坦福的学生可以像指挥交响乐般调配晶体管阵列,一位非洲的开发者能用本地化算法重构光线追踪引擎。真正的创新从不诞生于封闭的花园,唯有让每一粒思想的种子都能扎根硅壤,计算的森林才会生生不息。 第三,英伟达前沿实验室(NVIDIA Labs)将启动“不可能的任务”孵化计划。 生成式AI与量子退火机的碰撞会点燃什么?生物分子模拟遇上实时渲染引擎将改写多少药物研发范式?我不知道答案,但我知道:当我们在GPU集群中模拟出第一颗人工神经元的自组织网络时,当自动驾驶系统的决策回路开始涌现类人直觉时,那些曾被视为科幻的图景,终将成为下一代人眼中的常识。 这条路注定布满荆棘。记得2007年推出Tesla架构时,华尔街质问“谁会需要GPU计算?”;2012年深度学习初现锋芒,有人嘲讽“用游戏显卡搞科研是行为艺术”。但正是这些“离经叛道”的选择,让我们在AI大潮来临前十年便铺好了铁轨。今天,当全球数据中心因大模型训练而沸腾,当数字孪生开始重构物理世界,我比任何时候都更确信:伟大的创新往往诞生于主流认知的盲区,而我们要做的,就是成为第一束照亮盲区的光。 站在算力革命的临界点,我们需要重拾Denny’s餐厅里的那种勇气——不是无畏风险的莽撞,而是看清风险仍选择前行的清醒。DeepSeek们的探索值得尊敬,但英伟达的视野必须超越单一技术路线的胜负。我们的征途,是让人工智能成为科学家手中的显微镜与望远镜,是让量子计算从理论方程走进工厂车间,是让每一次屏幕点亮时的光,都照见更辽阔的人类可能性。 此刻,夜已深。我望向窗外,圣克拉拉的服务器集群仍在黑暗中闪烁,宛如倒悬的银河。这让我想起一位中国合作伙伴的寄语:“星辰从不问赶路人为何仰望,因为它们知道,光年之外的辉光终将照亮脚下的路。” 同仁们,伙伴们,过去三十年,我们共同将餐巾纸上的涂鸦变成了改变世界的工具;未来三十年,让我们继续做最疯狂的造梦者、最踏实的工匠、最虔诚的求索者。山高路远,与君共赴。 黄仁勋 英伟达创始人兼 CEO 2024年1月
#英伟达
#全球合作
#企业历史
#技术创新
#计算发展
#致信
#电路设计
#公司文化
分享
评论 0
0
宝玉
7个月前
木遥写了一条微博提到了一篇推文,就让 Grok 帮我找了一下,顺利找到。 这种找推文的活还得是 X 自家的 Grok 来做效果最好
#Grok
#推文
#X公司
分享
评论 0
0
宝玉
7个月前
转:关于 DeepSeek 的研究和思考 (Archerman Capital) 关于这几天很火的 DeepSeek, 我们 (Archerman Capital) 做了一些研究和思考, 和大家分享, enjoy! 灰色部分是技术细节, 不感兴趣的可略过。 几个事实 1) DeepSeek 不是套壳不是蒸馏美国的大模型。 虽然中国有些大模型是套壳和蒸馏的, 但 DeepSeek 不是。 2) 核心架构还是基于 Transformer, deepseek 在架构、工程设计上进行了创新和工艺提升, 实现效率优化。架构上, 采用了混合专家模型 (MoE)、多头潜注意力 (MLA)、多令牌预测 (MTP)、长链式推理 (CoT)、DualPipe 算法等设计, 并进行了依赖强化学习 (RL) 而不加入监督微调 (SFT) 的训练尝试。工程上, 在数据精度 (FP8 混合精度)、底层通信等方面进行了优化。这些方法在学术界都已经有了, Deepseek 没有过于追求新技术, 而是花了心思把这些方法都用上, 解决了一些技术的应用难点, 在理论应用和工程上找到平衡, 具体如下: MoE: Mixture of Experts (混合专家模型)。将模型划分多个专家模块来进行分工。训练中将不同专家模块分配到不同计算设备训练, 提升训练效率。推理时, 仅动态激活部分专家 (37B 参数), 而非全模型参数 (671B 参数), 减少计算负担。但是 MoE 经常会面临某些专家承担所有工作, 其他专家不被使用的问题, 业内会通过一如辅助损失来对此调控、平衡各个专家模块的工作量, 而 deepseek 通过无辅助损失的自然负载均衡 (引入一个无形的手而不是人为调控)、共享专家机制来解决该问题。 MLA: Multi-Head Latent Attention (多头潜注意力)。扩展了传统的多头注意力机制, 引入潜向量 (latent variables), 可以动态调整注意力机制, 捕捉任务中不同的隐含语义。在训练中减少内存和计算开销, 在推理中降低 KV 缓存占用空间。 MTP: Multi-Token Prediction (多令牌预测)。一般 LLM 一次生成 1 个 token, 采用单步预测。deepseek 在特定场景下能同时预测多个 token, 来提高信号密度。一方面能够减少上下文漂移、逻辑更连贯, 也能减少一些重复中间步骤, 在数学、代码和文本摘要场景能提升效率。 CoT: Chain of thought (思维链)。一种训练和推理方法, 将复杂的问题拆分成小步的中间逻辑, 细分逻辑链条。在训练阶段, Deepseek 用标注的 Long CoT 数据微调模型, 让模型生成更清晰的推理步骤, 在强化学习中用 CoT 设计奖励优化, 增强长链推理能力, 并且在此过程中观察到了模型的反思 (回溯推理路径)、多路径推理 (能给出多个解)、aha 时刻 (通过策略突破瓶颈) 等自发行为。 DualPipe (双重流水线): 传统训练信息流水线会产生一些等待时间、有“流水线气泡”, deepseek 设计了一个双重流水线, 让一个计算阶段在等待数据传输时可以切换到另一批数据, 充分利用空闲时间。 R1-Zero: Deepseek 在 V3 基础模型上, 仅通过强化学习 (Reinforcement Learning) 训练, 而不加入 SFT (Supervised fine tuning) 数据, 训练了 R1-Zero 模型, 探索了模型不依赖人类标注数据微调、自主推演的能力, 打开了新的思路。但 R1 模型仍然采取 SFT 数据优化推理和生成质量。 FP8 混合精度训练: 引入了 FP8 混合精度训练框架, 相比传统的 FP16 精度, 数据内存占用更少, 但在一些算子模块、权重中仍然保留了 FP16、FP32 的精度, 节省计算资源。 底层通信优化: 开发了高效的通信内核, 优化对带宽的利用, 保证数据传输效率, 并能支持大规模部署。 拿内燃机和汽车的发明打个比方, 德国人发明了内燃机和汽车, 美国人喜欢 Scaling Law, 排量越大马力越大, 于是从 2 升到 4 升, 甚至 8 升排量的车在美国都很常见, 所以美国肌肉车很耗油。虽然源头技术不是日本发明的, 但日本人擅长把一件事做精, 工程上做很多优化, 日本 2.5 升排量的车甚至可以做到和美国 5 升排量车一样的百公里加速指标。比如轻量化设计把大钢板换成钢条 (类似通过稀疏的办法减少大模型的参数量); 涡轮增压利用废气能量增加空气供给, 提高燃烧效率; 精密制造, 使得发动机零部件的配合更加紧密, 从而减少能量损失; 等等。 3) 有些宣传说 DeepSeek 的训练成本是 550 万美元, 是 Meta 的 1/10, OpenAI 的 1/20, 好像一下子比别人厉害了 10 倍 20 倍, 这有点夸张。 因为现在在美国预训练几千亿参数的一个模型其实也到不到 2000 万美元的成本, DeepSeek 把成本差不多压缩到三分之一。Meta 和 OpenAl 花的钱多是因为前沿探路, 探路就意味着会有浪费, 而后发追赶是站在别人的肩膀上, 是可以避开很多浪费的。另外算力成本在过去几年是指数型下降的, 不能这么机械的比较。打个不恰当的比方, 创新药的研发需要十年几十亿美元, 而仿制药的研发一定会更快更省。另外成本的统计口径也没有统一的标准, 可以有很大的差别。 几个观点: 1) DeepSeek 代表的是整个开源相对闭源的一次胜利, 对社区的贡献会快速转化为整个开源社区的繁荣, 我相信包括 Meta 在内的开源力量, 会在此基础上进一步发展开源模型, 开源就是一个众人拾柴火焰高的事情。 2) OpenAl 这种大力出奇迹的路径暂时看显得有点简单粗暴, 但也不排除到了一定的量又出现了新的质变, 那闭源和开源又将拉开差距, 这也不好说。从 AI 过去 70 年发展的历史经验来看算力至关重要, 未来可能依然是。 3) DeepSeek 让开源模型和闭源模型一样好, 并且效率还更高, 花钱买 OpenAI 的 API 的必要性降低了, 私有部署和自主微调会为下游应用提供更大的发展空间, 未来一两年, 大概率将见证更丰富的推理芯片产品, 更繁荣的 LLM 应用生态。 4) 基础大模型终将 commoditize (商品化), toB 领域看谁能将 LLM 更好和复杂的生产环节衔接好帮客户落地提高生产效率, toC 领域看谁有流量入口, 最终才会获取 AI 产业价值创造中最多的利润。 5) 对算力的需求不会下降, 有个 Jevons 悖论讲的是第一次工业革命期间蒸汽机效率的提高使得市场上煤炭的消耗总量反而增加了。类似从大哥大年代到诺基亚手机普及的年代, 正因为便宜了所以才能普及, 因为普及了所以市场总消费量增加了的。 6) 对数据的需求不会降低, 巧妇难成无米之炊, 没有米怎么做饭, 算法的提高相当于做饭吃饭变得更快, 对数据的渴求会更大。 研究期间, 我们与几位学术界和工业界的专家进行了交流, 由于尚未获得公开提名的许可, 就暂不提及具体姓名了, 但在此特别表达感谢! Archerman Capital™ 是一家美国的成长期股权投资机构, 专注于人工智能、数据基础设施、网络安全等领域的成长期投资。其投资组合包括 Databricks, Scale AI, Tenstorrent 等。该机构采用高度研究驱动和第一性原理的方法。公司总部位于波士顿, 在纽约和硅谷设有投资团队。以上是纯分享, 并非投资建议。
#DeepSeek
#Archerman Capital
#大模型
#技术研究
分享
评论 0
0
上一页
1
...
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞