#HuggingFace

1周前

Unsloth Studio 本地微调大模型一直有两个痛点：VRAM 不够、配置太复杂。 Unsloth Studio 这周上线 Beta，两个都解决了： • 开源 no-code Web UI，点点鼠标就能微调 • VRAM 占用减少 70%（一张 RTX 3090 就能调 7B 模型） • 速度比 HuggingFace 原生快 2 倍 • 支持 Llama 4、Qwen 2.5/3.5 等最新架构 • 训练完一键导出 GGUF/vLLM/HuggingFace 格式 • Windows 和 Linux 本地运行，不碰云端 r/LocalLLaMA 上反响炸裂。对个人开发者和小团队来说，这可能是目前门槛最低的微调方案。不用花钱买 SaaS 了，自己练一个专属模型比你想的简单。 🔗

#UnslothStudio #微调大模型 #VRAM优化 #no-code #WebUI #RTX3090 #HuggingFace #Llama4 #Qwen

4个月前

今天在 huggingface 上看到了 VibeThinker-1.5B，来自微博 AI。这个名字熟悉又陌生。才意识到，拥有巨量数据的微博，在 AI 领域不是掉队的问题，是似乎毫无存在感。

#VibeThinker-1.5B #微博AI #HuggingFace #AI领域掉队 #微博

4个月前

一个很喜欢的小众私人训练的70B的LLM，从Openrouter撤下了，再看只有Huggingface上有，而且没云推理支持（如果自己部署要10美元/小时）。非常惋惜，只能以后买AI机器的时候，本地部署了。

#LLM #Openrouter #HuggingFace #云推理 #AI机器

5个月前

LLM训练手册 HuggingFace分享了他们训练SmolLM3-3B的详细操作步骤，200多页的文档。地址：

#LLM #HuggingFace #SmolLM3-3B #训练手册 #开源

5个月前

HuggingFace 发布的超长技术博客（200页，2-4天才能读完），完整记录了团队训练 SmolLM3 的全过程，对于想训练小模型的团队，必看！从训练指南、训练核心流程、最佳实践、基础设施和资源推荐，强调「通过精心策划的数据、稳定基础设施和优化流程，实现高性能模型，而非依赖巨型计算资源」，非常值得慢慢学习。

#HuggingFace #SmolLM3 #小模型训练 #技术博客 #最佳实践

6个月前

国内模型 battle 海外太不稀奇，但是拿小尺寸和旗舰模型比，倒还是真少见 Huggingface ceo clem 转发了文心的 ERNIE-4.5-21B-A3B-Thinking，目前 Trending 已经冲上第一！点开看了下，里面的benchmark吸引到我了，21B的小尺寸模型，拿来和Gemini2.5 pro比居然到还能打的有来有回，百度这波开源有不少东西啊🤔

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#文心ERNIE-4.5-21B-A3B-Thinking #HuggingFace #Gemini2.5 pro #模型battle #百度开源

7个月前

《超大规模实战手册》（来自huggingface科学团队的大规模LLM训练指南）近日已发布！🔥 246页的精美设计PDF，带您了解如何使用以下技术训练自己的DeepSeek-V3模型： • 5D并行， • ZeRO， • 快速内核计算/通信重叠和瓶颈，包含理论、互动图表、4000多个扩展实验和音频！

#大规模LLM训练 #DeepSeek-V3模型 #HuggingFace #5D并行 #ZeRO

卡尔的AI沃茨

10个月前

DeepSeek-R1-0528（R1-V2、新R1）的深度测评来了，代码、3D、物理模拟、设计美学、PPT、幻觉、中文写作都测了边！ R1就是基于3月份更新的V3-0324更新的。好消息是现在已经在huggingface开源了、OpenRouter上免费使用，不太需要担心服务器繁忙。先说说测下来的结论，R1-0528水平确确实实是可以达到Claude3.7，接近Claude4和OpenAI o3。第一个案例就是我跑出来的巧克力制作3D演示👇完整度相当高。本来这个测试案例本来已经被我拉黑了，除了claude 3.7 sonnet的 Thinking版本，基本都会卡住。但是，R1-0528 用两次对话就成功了！完整度非常夸张，使用弹跳的粒子系统模拟可可粉，构建出了一个简单的流水线场景，不点击的时候会缓慢旋转。当鼠标点到某个机器上，会有快速旋转的过渡动画，还会有文字标签展示是处于巧克力制作的那方面。侧边栏的文字演示也没有那么落下，给出了每一个环节的详细说明。（1/7）

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-R1-0528 #R1-V2 #深度测评 #3D #物理模拟 #设计美学 #PPT #中文写作 #V3-0324 #HuggingFace #Openrouter #Claude3.7 #Claude4 #OpenAI

1年前

🤗 Hugging Face 24 小时开源复现 DeepResearch：解放 AI 搜索助手概述：OpenAI 发布网页搜索系统 DeepResearch 后，Hugging Face 团队在 24 小时内启动开源复现项目，利用 CodeAgent 等创新方法将验证准确率提升至 54%，并计划持续改进以打造人人可用的开源 AI 搜索助手 OpenAI 发布背景： - OpenAI 在2月3日发布了 DeepResearch 系统 - 该系统可以浏览网页、总结内容并回答问题 - 在 GAIA 基准测试上取得了显著成绩(67% 正确率) 开源复现计划： - 由于 OpenAI 没有公开其框架(agent framework)的细节 - 作者团队决定在24小时内尝试复现并开源这个框架关键技术突破： - 使用 CodeAgent 而不是传统的 JSON 格式 - 代码方式可以减少30%的步骤数量 - 提供了基础工具:简单的网页浏览器和文本检查器初步成果： - 在 GAIA 测试集上达到54%的验证准确率 - 超过了之前开源框架的最好成绩(46%) - 已发布在线演示供人们试用未来发展方向： - 计划开发更强大的网页浏览能力 - 准备构建 GUI Agent(可以查看屏幕并用鼠标键盘操作) - 正在招募全职工程师推进项目

#HuggingFace #DeepResearch #AI搜索助手 #开源 #OpenAI

1年前

Hugging Face 的 Co-Founder 的回应：开源不分国界最后花了一些时间阅读 Dario 关于 DeepSeek 和出口管制的文章，说实话，读起来很痛苦。我是 Anthropic 的忠实粉丝和 Claude* 的忠实用户，所以我这么说。文章的前半部分读起来像是在长篇大论地试图证明闭源模型仍然远远领先于 DeepSeek。然而，它主要指的是内部未发表的评估，这限制了你可以给予它的荣誉，而像“DeepSeek-V3 接近 SOTA 模型，并且在一些非常狭窄的任务上表现更强”这样的陈述，转变为一个普遍的结论“DeepSeek-V3 实际上比那些美国前沿模型更差——在缩放曲线上可以说差了约 2 倍”，这让我总体上持怀疑态度。同样适用于 DeepSeek 的所有发现和效率改进都是很久以前由闭源模型公司发现的结论，这一说法主要源于将 DeepSeek 公开发布的 600 万美元训练数字与 Anthropic 方面一些模糊的“几千万美元”进行比较，而没有提供更多细节。我毫不怀疑 Anthropic 团队非常有才华，我也经常分享我对 Sonnet 3.5 的印象，但这种将开放研究与模糊的封闭研究和未公开的评估进行冗长的比较，让我对他们的领先地位的信心不如在阅读之前了。更令人沮丧的是，文章的后半部分深入探讨了中美竞赛的情况，却完全忽略了 DeepSeek 模型是开放权重的，并且由于其详细的技术报告而在很大程度上是开放知识的（请随时关注 Hugging Face 的 open-r1 复制项目，了解剩余的非公开部分：合成数据集）。如果 DeepSeek 和 Anthropic 模型都是闭源的，那么军备竞赛的解释可能有意义，但在我看来，其中一个模型可以自由广泛下载并附有详细的科学报告，这使得整个“闭源军备竞赛”论点变得虚假且难以信服。事实是这样的：开源不分国界。无论是其使用还是其创造。现在，世界上的每家公司，无论是欧洲、非洲、南美还是美国，都可以直接下载和使用 DeepSeek，而无需将数据发送到特定国家（例如中国）或依赖特定公司或服务器来运行其技术的核心部分。就像世界上大多数开源库都是由来自世界各地的贡献者构建的一样，我们已经看到 Hugging Face 中心上有数百个衍生模型，这些模型是由世界各地的团队根据其特定的用例和探索调整原始模型而创建的。此外，随着 open-r1 复刻版和 DeepSeek 论文的发布，未来几个月将明显看到来自世界各地的团队发布大量开源推理模型。就在今天，另外两支团队，西雅图的 AllenAI 和巴黎的 Mistral 都各自发布了开源基础模型（Tülu 和 Small3），这些模型已经在挑战新的最先进水平（AllenAI 表示其 Tülu 模型超越了 DeepSeek-V3 的性能）。而且其范围远不止地理方面。我们谈论得还不够：开源对我们的安全将越来越重要！随着人工智能成为我们生活的中心，弹性将日益成为这项技术的一个非常重要的元素。今天，我们几乎一切都依赖互联网。没有互联网，我们就会失去所有的社交媒体/新闻源，无法叫出租车、预订餐厅，也无法在 WhatsApp 上联系到某人。现在想象一下我们的另一个世界，所有通过互联网传输的数据都必须经过一家公司的数据中心。这家公司发生一次中断的那一天，整个世界基本上都会停止运转（想象一下最近的 CrowdStrike 中断，其规模扩大了一百万倍）。很快，随着人工智能助手和人工智能技术渗透到我们的整个生活，简化我们的许多线上和线下任务，我们（以及使用人工智能的公司）将开始更多地依赖这项技术来完成我们的日常活动，同样，我们也会开始发现这些人工智能助手因中断而导致的宕机令人烦恼甚至痛苦。避免未来出现停机情况的最佳方法是在我们的技术链深处构建弹性。开源有很多优势，比如共享训练成本、可调性、控制、所有权、隐私，但从长远来看，随着人工智能深深植根于我们的世界，其最基本的优点之一可能是其强大的弹性。它是最直接、最具成本效益的方法之一，可以轻松地在许多独立提供商之间分配计算，甚至可以以最小的复杂性在本地和设备上运行模型。我认为，除了国家自豪感和竞赛之外，现在是时候开始从全球角度思考人工智能将给世界各地带来的挑战和社会变革了。开源技术可能是我们安全过渡到弹性数字未来最重要的资产，在这个未来中，人工智能将融入社会的各个方面。 *Claude 是我在复杂编码方面的默认 LLM。我也喜欢它的犹豫和思考特征，就像 DeepSeek 等较新的推理模型的思路链的前奏。原文

#HuggingFace #开源 #出口管制