search icon

Hugging Face 的 Co-Founder 的回应:开源不分国界 最后花了一些时间阅读 Dario 关于 DeepSeek 和出口管制的文章,说实话,读起来很痛苦。我是 Anthropic 的忠实粉丝和 Claude* 的忠实用户,所以我这么说。 文章的前半部分读起来像是在长篇大论地试图证明闭源模型仍然远远领先于 DeepSeek。然而,它主要指的是内部未发表的评估,这限制了你可以给予它的荣誉,而像“DeepSeek-V3 接近 SOTA 模型,并且在一些非常狭窄的任务上表现更强”这样的陈述,转变为一个普遍的结论“DeepSeek-V3 实际上比那些美国前沿模型更差——在缩放曲线上可以说差了约 2 倍”,这让我总体上持怀疑态度。同样适用于 DeepSeek 的所有发现和效率改进都是很久以前由闭源模型公司发现的结论,这一说法主要源于将 DeepSeek 公开发布的 600 万美元训练数字与 Anthropic 方面一些模糊的“几千万美元”进行比较,而没有提供更多细节。我毫不怀疑 Anthropic 团队非常有才华,我也经常分享我对 Sonnet 3.5 的印象,但这种将开放研究与模糊的封闭研究和未公开的评估进行冗长的比较,让我对他们的领先地位的信心不如在阅读之前了。 更令人沮丧的是,文章的后半部分深入探讨了中美竞赛的情况,却完全忽略了 DeepSeek 模型是开放权重的,并且由于其详细的技术报告而在很大程度上是开放知识的(请随时关注 Hugging Face 的 open-r1 复制项目,了解剩余的非公开部分:合成数据集)。如果 DeepSeek 和 Anthropic 模型都是闭源的,那么军备竞赛的解释可能有意义,但在我看来,其中一个模型可以自由广泛下载并附有详细的科学报告,这使得整个“闭源军备竞赛”论点变得虚假且难以信服。 事实是这样的:开源不分国界。无论是其使用还是其创造。 现在,世界上的每家公司,无论是欧洲、非洲、南美还是美国,都可以直接下载和使用 DeepSeek,而无需将数据发送到特定国家(例如中国)或依赖特定公司或服务器来运行其技术的核心部分。 就像世界上大多数开源库都是由来自世界各地的贡献者构建的一样,我们已经看到 Hugging Face 中心上有数百个衍生模型,这些模型是由世界各地的团队根据其特定的用例和探索调整原始模型而创建的。 此外,随着 open-r1 复刻版和 DeepSeek 论文的发布,未来几个月将明显看到来自世界各地的团队发布大量开源推理模型。就在今天,另外两支团队,西雅图的 AllenAI 和巴黎的 Mistral 都各自发布了开源基础模型(Tülu 和 Small3),这些模型已经在挑战新的最先进水平(AllenAI 表示其 Tülu 模型超越了 DeepSeek-V3 的性能)。 而且其范围远不止地理方面。我们谈论得还不够:开源对我们的安全将越来越重要! 随着人工智能成为我们生活的中心,弹性将日益成为这项技术的一个非常重要的元素。今天,我们几乎一切都依赖互联网。没有互联网,我们就会失去所有的社交媒体/新闻源,无法叫出租车、预订餐厅,也无法在 WhatsApp 上联系到某人。现在想象一下我们的另一个世界,所有通过互联网传输的数据都必须经过一家公司的数据中心。这家公司发生一次中断的那一天,整个世界基本上都会停止运转(想象一下最近的 CrowdStrike 中断,其规模扩大了一百万倍)。 很快,随着人工智能助手和人工智能技术渗透到我们的整个生活,简化我们的许多线上和线下任务,我们(以及使用人工智能的公司)将开始更多地依赖这项技术来完成我们的日常活动,同样,我们也会开始发现这些人工智能助手因中断而导致的宕机令人烦恼甚至痛苦。 避免未来出现停机情况的最佳方法是在我们的技术链深处构建弹性。 开源有很多优势,比如共享训练成本、可调性、控制、所有权、隐私,但从长远来看,随着人工智能深深植根于我们的世界,其最基本的优点之一可能是其强大的弹性。它是最直接、最具成本效益的方法之一,可以轻松地在许多独立提供商之间分配计算,甚至可以以最小的复杂性在本地和设备上运行模型。 我认为,除了国家自豪感和竞赛之外,现在是时候开始从全球角度思考人工智能将给世界各地带来的挑战和社会变革了。开源技术可能是我们安全过渡到弹性数字未来最重要的资产,在这个未来中,人工智能将融入社会的各个方面。 *Claude 是我在复杂编码方面的默认 LLM。我也喜欢它的犹豫和思考特征,就像 DeepSeek 等较新的推理模型的思路链的前奏。 原文

0/200

评论 0

暂无更多评论