时政
财经
科技
登录
#HuggingFace
关注
卡尔的AI沃茨
1个月前
DeepSeek-R1-0528(R1-V2、新R1)的深度测评来了,代码、3D、物理模拟、设计美学、PPT、幻觉、中文写作都测了边! R1就是基于3月份更新的V3-0324更新的。好消息是现在已经在huggingface开源了、OpenRouter上免费使用,不太需要担心服务器繁忙。 先说说测下来的结论,R1-0528水平确确实实是可以达到Claude3.7,接近Claude4和OpenAI o3。 第一个案例就是我跑出来的巧克力制作3D演示👇完整度相当高。本来这个测试案例本来已经被我拉黑了,除了claude 3.7 sonnet的 Thinking版本,基本都会卡住。 但是,R1-0528 用两次对话就成功了!完整度非常夸张,使用弹跳的粒子系统模拟可可粉,构建出了一个简单的流水线场景,不点击的时候会缓慢旋转。当鼠标点到某个机器上,会有快速旋转的过渡动画,还会有文字标签展示是处于巧克力制作的那方面。侧边栏的文字演示也没有那么落下,给出了每一个环节的详细说明。 (1/7)
深度学习模型升级引发AI能力大跃进,行业迎新变革· 20 条信息
#DeepSeek-R1-0528
#R1-V2
#深度测评
#3D
#物理模拟
#设计美学
#PPT
#中文写作
#V3-0324
#HuggingFace
#Openrouter
#Claude3.7
#Claude4
#OpenAI
分享
评论 0
0
meng shao
4个月前
🤗 Hugging Face 24 小时开源复现 DeepResearch:解放 AI 搜索助手 概述:OpenAI 发布网页搜索系统 DeepResearch 后,Hugging Face 团队在 24 小时内启动开源复现项目,利用 CodeAgent 等创新方法将验证准确率提升至 54%,并计划持续改进以打造人人可用的开源 AI 搜索助手 OpenAI 发布背景: - OpenAI 在2月3日发布了 DeepResearch 系统 - 该系统可以浏览网页、总结内容并回答问题 - 在 GAIA 基准测试上取得了显著成绩(67% 正确率) 开源复现计划: - 由于 OpenAI 没有公开其框架(agent framework)的细节 - 作者团队决定在24小时内尝试复现并开源这个框架 关键技术突破: - 使用 CodeAgent 而不是传统的 JSON 格式 - 代码方式可以减少30%的步骤数量 - 提供了基础工具:简单的网页浏览器和文本检查器 初步成果: - 在 GAIA 测试集上达到54%的验证准确率 - 超过了之前开源框架的最好成绩(46%) - 已发布在线演示供人们试用 未来发展方向: - 计划开发更强大的网页浏览能力 - 准备构建 GUI Agent(可以查看屏幕并用鼠标键盘操作) - 正在招募全职工程师推进项目
#HuggingFace
#DeepResearch
#AI搜索助手
#开源
#OpenAI
分享
评论 0
0
orange.ai
5个月前
Hugging Face 的 Co-Founder 的回应:开源不分国界 最后花了一些时间阅读 Dario 关于 DeepSeek 和出口管制的文章,说实话,读起来很痛苦。我是 Anthropic 的忠实粉丝和 Claude* 的忠实用户,所以我这么说。 文章的前半部分读起来像是在长篇大论地试图证明闭源模型仍然远远领先于 DeepSeek。然而,它主要指的是内部未发表的评估,这限制了你可以给予它的荣誉,而像“DeepSeek-V3 接近 SOTA 模型,并且在一些非常狭窄的任务上表现更强”这样的陈述,转变为一个普遍的结论“DeepSeek-V3 实际上比那些美国前沿模型更差——在缩放曲线上可以说差了约 2 倍”,这让我总体上持怀疑态度。同样适用于 DeepSeek 的所有发现和效率改进都是很久以前由闭源模型公司发现的结论,这一说法主要源于将 DeepSeek 公开发布的 600 万美元训练数字与 Anthropic 方面一些模糊的“几千万美元”进行比较,而没有提供更多细节。我毫不怀疑 Anthropic 团队非常有才华,我也经常分享我对 Sonnet 3.5 的印象,但这种将开放研究与模糊的封闭研究和未公开的评估进行冗长的比较,让我对他们的领先地位的信心不如在阅读之前了。 更令人沮丧的是,文章的后半部分深入探讨了中美竞赛的情况,却完全忽略了 DeepSeek 模型是开放权重的,并且由于其详细的技术报告而在很大程度上是开放知识的(请随时关注 Hugging Face 的 open-r1 复制项目,了解剩余的非公开部分:合成数据集)。如果 DeepSeek 和 Anthropic 模型都是闭源的,那么军备竞赛的解释可能有意义,但在我看来,其中一个模型可以自由广泛下载并附有详细的科学报告,这使得整个“闭源军备竞赛”论点变得虚假且难以信服。 事实是这样的:开源不分国界。无论是其使用还是其创造。 现在,世界上的每家公司,无论是欧洲、非洲、南美还是美国,都可以直接下载和使用 DeepSeek,而无需将数据发送到特定国家(例如中国)或依赖特定公司或服务器来运行其技术的核心部分。 就像世界上大多数开源库都是由来自世界各地的贡献者构建的一样,我们已经看到 Hugging Face 中心上有数百个衍生模型,这些模型是由世界各地的团队根据其特定的用例和探索调整原始模型而创建的。 此外,随着 open-r1 复刻版和 DeepSeek 论文的发布,未来几个月将明显看到来自世界各地的团队发布大量开源推理模型。就在今天,另外两支团队,西雅图的 AllenAI 和巴黎的 Mistral 都各自发布了开源基础模型(Tülu 和 Small3),这些模型已经在挑战新的最先进水平(AllenAI 表示其 Tülu 模型超越了 DeepSeek-V3 的性能)。 而且其范围远不止地理方面。我们谈论得还不够:开源对我们的安全将越来越重要! 随着人工智能成为我们生活的中心,弹性将日益成为这项技术的一个非常重要的元素。今天,我们几乎一切都依赖互联网。没有互联网,我们就会失去所有的社交媒体/新闻源,无法叫出租车、预订餐厅,也无法在 WhatsApp 上联系到某人。现在想象一下我们的另一个世界,所有通过互联网传输的数据都必须经过一家公司的数据中心。这家公司发生一次中断的那一天,整个世界基本上都会停止运转(想象一下最近的 CrowdStrike 中断,其规模扩大了一百万倍)。 很快,随着人工智能助手和人工智能技术渗透到我们的整个生活,简化我们的许多线上和线下任务,我们(以及使用人工智能的公司)将开始更多地依赖这项技术来完成我们的日常活动,同样,我们也会开始发现这些人工智能助手因中断而导致的宕机令人烦恼甚至痛苦。 避免未来出现停机情况的最佳方法是在我们的技术链深处构建弹性。 开源有很多优势,比如共享训练成本、可调性、控制、所有权、隐私,但从长远来看,随着人工智能深深植根于我们的世界,其最基本的优点之一可能是其强大的弹性。它是最直接、最具成本效益的方法之一,可以轻松地在许多独立提供商之间分配计算,甚至可以以最小的复杂性在本地和设备上运行模型。 我认为,除了国家自豪感和竞赛之外,现在是时候开始从全球角度思考人工智能将给世界各地带来的挑战和社会变革了。开源技术可能是我们安全过渡到弹性数字未来最重要的资产,在这个未来中,人工智能将融入社会的各个方面。 *Claude 是我在复杂编码方面的默认 LLM。我也喜欢它的犹豫和思考特征,就像 DeepSeek 等较新的推理模型的思路链的前奏。 原文
#HuggingFace
#开源
#出口管制
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞