#微调

3个月前

我第一个版本的提示词从来都是用ai 生成，然后由我进行微调。

#AI生成 #提示词 #微调 #中性

4个月前

Claude的指令依从性好像有所进步啊。我怀疑他们是怎么在后台调节的呢？下图我在一个200行的提示词里面加了一正一负两个例子，它立刻就把原来生成结果里面的错误给挑出来了。我之前的经验这种调整通常是要么没生效，要么生效了但是不相关的部分也做了调整。这大约相当于修图中的微调吧。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1256 条信息

#Claude #指令依从性 #进步 #微调 #AI模型

4个月前

gpt-oss 微调教程来了

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#gpt-oss #微调 #教程

6个月前

最终用户需要的不是「Vibe Coding」，而是真正能够交付最终结果的「Vibe Workflow」⚡️ 人机协作生成，一次生成，永久可用，反复调优，平衡 AI 的发散创意能力和人在实际需求中的严谨微调能力，最终分享结果+Workflow 让人人即可复现🌈 这是我们为新时代的 Workflow 交出的答卷 👉

#Vibe Coding #Vibe Workflow #人机协作 #生成 #AI #创意 #需求 #微调 #分享 #Workflow

6个月前

最近研究 RAG 多了，很少关注微调，今儿看到一个不错的指南文章，分享一下对 LoRA 和 QLoRA 的理解： LoRA 通过分解权重更新矩阵为小矩阵来高效微调，大幅降低计算资源需求。QLoRA 在此基础上引入 4-bit 量化，结合高精度计算和低精度存储，进一步优化内存使用。两者都能在保持模型性能的同时显著降低训练成本。特别有趣的是 QLoRA 的量化感知训练机制，通过 LoRA 适配器来补偿量化误差，实现了性能和效率的完美平衡。这些技术让企业能够更经济地部署定制化模型，是 LLM 落地的重要工具。 #AI #LLM #MachineLearning

#LoRA #QLoRA #微调 #模型压缩 #自然语言处理

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

6个月前

这个必须转：Sakana AI的关键工作。 Text-to-LoRA抽象了微调的复杂性，将核心技能从数据工程转向简洁的任务描述。这是模型专业化民主化的重大飞跃，使非技术专家能够使用自然语言创建定制适配器。

#Sakana AI #Text-to-LoRA #微调 #模型专业化 #自然语言 #定制适配器 #数据工程 #民主化

马东锡 NLP 🇸🇪

9个月前

LRM论文选读：START: Self-taught Reasoner with Tools 这篇文章介绍了一种构建特定任务、私域Large Reasoning Model的有效方法，主要方法是微调，而且没有使用reinforcement learning，但却有非常类似reinforcement learning with human feedback的特征。关键词有二： Test-time scaling Rejection sampling fine-tuning（反思微调）

#Large Reasoning Model #微调 #Reinforcement Learning #human feedback #论文选读 #特定任务 #私域

9个月前

问：宝玉老师，请教一下，构建个人知识库的区别又在什么地方呢？还有微调答：打个比方，现在你在上一门新的历史课程，知识库（专业说法叫 RAG，检索增强生成）就好比教科书，微调（Fine-tuning）就好比你学习消化了知识。知识库就好比你的教科书，但是这门课其实你还没上过，直接就去考试，好在考试是开卷的，而且你语文历史基础很好，然后每一道题你就去现场查教科书，翻到可能的知识点位置，现场去阅读这几个知识点，把题目就给做出来。要是一时半会没查到正确的位置，你以前也没学过，可能会根据已有的知识推测，这样就可能出现幻觉，答题就不太精准。微调就好比你把这本教科书上的知识都学了一遍、题库做了一遍，知识都学过了，考试的时候从记忆里面把知识直接搜集出来，去答题。这样好处就是答题快且专业，但如果你微调时学到的知识本身不准确或冲突，你记忆里的知识就可能出现混乱或偏差，有时反而不如直接从教科书里查阅更准确。另外你深入学习了很多历史知识后，在面对数学等其他领域的泛化能力可能会稍微受到限制，因为你专注学习了一门课之后，精力投入其他科目的泛用能力相对减少了。再有就是如果你的教科书很多的话，每本书都学一遍时间成本和算力成本都不低，所以微调成本明显更高，包括数据整理、训练资源（算力）和长期维护的成本都相对较大。总结一下它们的区别：个人知识库 = 模型外的记忆，通过动态检索实现，灵活、快速，但受限于检索效率和相关性，适合规模适中的临时问答，不修改模型本身。个人知识库适合的场景： - 做个人知识管理，比如个人笔记、文档、读书笔记的快速问答。 - 针对公司内部文档、手册等建立企业内知识库快速问答。微调 = 模型内的记忆，真正内化知识，专业、精准，但数据准备和训练维护成本更高，适合对精准度要求很高或特定领域内长期稳定的任务。微调适合的场景：你需要模型对某一特定领域或任务更加专业化，精准度要求很高。需要固定风格或内容的输出，比如特定企业风格、客服对话场景、创作特定风格内容。

#个人知识库 #RAG #微调 #知识管理 #模型训练

9个月前

olmOCR：可能是目前最好的开源OCR模型基于微调后的7B视觉语言模型，微调数据为260000页PDF页面，完全开源，包括模型权重、数据和训练代码、推理代码，4090可以本地运行。 Github：模型：在线使用：

#开源 #OCR #视觉语言模型 #模型权重 #微调 #PDF #GitHub #4090

9个月前

最近两三周给很多客户反复提及的忠告：用模型一定要用最好的那个，如果想省钱，请在你的场景下微调，而不是用一个低能力的通用模型，然后试图靠 Prompt 或者工程努力去拯救它。比如 DeepSeek 的那一堆蒸馏模型是很好的场景级推理模型的Base，但是不要直接用，真的很差。

#模型选择 #微调 #场景应用 #Prompt #工程努力 #DeepSeek #蒸馏模型 #推理模型

11个月前

用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。方法来自之前蒸馏QwQ的Sky-T1。 P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。 1/2

#DeepSeek R1 #SFT数据 #Qwen2.5-32B #微调 #蒸馏 #Sky-T1 #模型效果 #数据开源 #17K数据

11个月前

预训练23年底就死了，只是这两个月才埋微调24年q1也死了，只是还没有被埋更是发现有些名词从前沿传到创投圈就被异化了词义：大模型做teacher model教作为student的小模型，有人把这个过程叫做蒸馏，是完全错误的 teacher student的模型范式和蒸馏没关系蒸馏也不是简单的做数据再训练 weak to strong learning才是核心

#预训练 #微调 #大模型 #teacher model #student model #蒸馏 #模型范式 #weak to strong learning