时政
财经
科技
虚拟货币
其他
登录
#微调
关注
GanymedeNil
1周前
gpt-oss 微调教程来了
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 327 条信息
#gpt-oss
#微调
#教程
分享
评论 0
0
Tom Huang
1个月前
最终用户需要的不是 「Vibe Coding」,而是真正能够交付最终结果的「Vibe Workflow」⚡️ 人机协作生成,一次生成,永久可用,反复调优,平衡 AI 的发散创意能力和人在实际需求中的严谨微调能力,最终分享结果+Workflow 让人人即可复现🌈 这是我们为新时代的 Workflow 交出的答卷 👉
#Vibe Coding
#Vibe Workflow
#人机协作
#生成
#AI
#创意
#需求
#微调
#分享
#Workflow
分享
评论 0
0
johann.GPT
1个月前
最近研究 RAG 多了,很少关注微调,今儿看到一个不错的指南文章,分享一下对 LoRA 和 QLoRA 的理解: LoRA 通过分解权重更新矩阵为小矩阵来高效微调,大幅降低计算资源需求。QLoRA 在此基础上引入 4-bit 量化,结合高精度计算和低精度存储,进一步优化内存使用。两者都能在保持模型性能的同时显著降低训练成本。 特别有趣的是 QLoRA 的量化感知训练机制,通过 LoRA 适配器来补偿量化误差,实现了性能和效率的完美平衡。这些技术让企业能够更经济地部署定制化模型,是 LLM 落地的重要工具。 #AI #LLM #MachineLearning
#LoRA
#QLoRA
#微调
#模型压缩
#自然语言处理
分享
评论 0
0
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
2个月前
这个必须转:Sakana AI的关键工作。 Text-to-LoRA抽象了微调的复杂性,将核心技能从数据工程转向简洁的任务描述。这是模型专业化民主化的重大飞跃,使非技术专家能够使用自然语言创建定制适配器。
#Sakana AI
#Text-to-LoRA
#微调
#模型专业化
#自然语言
#定制适配器
#数据工程
#民主化
分享
评论 0
0
马东锡 NLP 🇸🇪
4个月前
LRM论文选读:START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法,主要方法是微调,而且没有使用reinforcement learning,但却有非常类似reinforcement learning with human feedback的特征。 关键词有二: Test-time scaling Rejection sampling fine-tuning(反思微调)
#Large Reasoning Model
#微调
#Reinforcement Learning
#human feedback
#论文选读
#特定任务
#私域
分享
评论 0
0
宝玉
5个月前
问:宝玉老师,请教一下,构建个人知识库的区别又在什么地方呢?还有微调 答:打个比方,现在你在上一门新的历史课程,知识库(专业说法叫 RAG,检索增强生成)就好比教科书,微调(Fine-tuning)就好比你学习消化了知识。 知识库就好比你的教科书,但是这门课其实你还没上过,直接就去考试,好在考试是开卷的,而且你语文历史基础很好,然后每一道题你就去现场查教科书,翻到可能的知识点位置,现场去阅读这几个知识点,把题目就给做出来。要是一时半会没查到正确的位置,你以前也没学过,可能会根据已有的知识推测,这样就可能出现幻觉,答题就不太精准。 微调就好比你把这本教科书上的知识都学了一遍、题库做了一遍,知识都学过了,考试的时候从记忆里面把知识直接搜集出来,去答题。这样好处就是答题快且专业,但如果你微调时学到的知识本身不准确或冲突,你记忆里的知识就可能出现混乱或偏差,有时反而不如直接从教科书里查阅更准确。 另外你深入学习了很多历史知识后,在面对数学等其他领域的泛化能力可能会稍微受到限制,因为你专注学习了一门课之后,精力投入其他科目的泛用能力相对减少了。 再有就是如果你的教科书很多的话,每本书都学一遍时间成本和算力成本都不低,所以微调成本明显更高,包括数据整理、训练资源(算力)和长期维护的成本都相对较大。 总结一下它们的区别: 个人知识库 = 模型外的记忆,通过动态检索实现,灵活、快速,但受限于检索效率和相关性,适合规模适中的临时问答,不修改模型本身。 个人知识库适合的场景: - 做个人知识管理,比如个人笔记、文档、读书笔记的快速问答。 - 针对公司内部文档、手册等建立企业内知识库快速问答。 微调 = 模型内的记忆,真正内化知识,专业、精准,但数据准备和训练维护成本更高,适合对精准度要求很高或特定领域内长期稳定的任务。 微调适合的场景: 你需要模型对某一特定领域或任务更加专业化,精准度要求很高。 需要固定风格或内容的输出,比如特定企业风格、客服对话场景、创作特定风格内容。
#个人知识库
#RAG
#微调
#知识管理
#模型训练
分享
评论 0
0
Gorden Sun
5个月前
olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github: 模型: 在线使用:
#开源
#OCR
#视觉语言模型
#模型权重
#微调
#PDF
#GitHub
#4090
分享
评论 0
0
九原客
5个月前
最近两三周给很多客户反复提及的忠告: 用模型一定要用最好的那个,如果想省钱,请在你的场景下微调,而不是用一个低能力的通用模型,然后试图靠 Prompt 或者工程努力去拯救它。 比如 DeepSeek 的那一堆蒸馏模型是很好的场景级推理模型的Base,但是不要直接用,真的很差。
#模型选择
#微调
#场景应用
#Prompt
#工程努力
#DeepSeek
#蒸馏模型
#推理模型
分享
评论 0
0
九原客
6个月前
用17K从DeepSeek R1 蒸馏的SFT数据,微调Qwen2.5-32B,效果非常不错。 与DeepSeek R1自家蒸馏的版本相比略逊一些,但是后者是800k sample,而且这17k数据以及合成脚本完全开源。 方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳,看来越小的模型需要越多的数据激活能力。 1/2
#DeepSeek R1
#SFT数据
#Qwen2.5-32B
#微调
#蒸馏
#Sky-T1
#模型效果
#数据开源
#17K数据
分享
评论 0
0
Panda
7个月前
预训练23年底就死了,只是这两个月才埋 微调24年q1也死了,只是还没有被埋 更是发现有些名词从前沿传到创投圈就被异化了词义: 大模型做teacher model教作为student的小模型,有人把这个过程叫做蒸馏,是完全错误的 teacher student的模型范式和蒸馏没关系 蒸馏也不是简单的做数据再训练 weak to strong learning才是核心
#预训练
#微调
#大模型
#teacher model
#student model
#蒸馏
#模型范式
#weak to strong learning
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞