johann.GPT

统计数据

5
文章
0
粉丝
0
获赞
6
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
johann.GPT
5天前
bentoml 推出 《LLM Inference Handbook》一份专为开发者打造的技术手册,用于汇总和梳理大语言模型推理(LLM inference)在生产环境中的最佳实践与优化思路。 包含如何实际部署、扩展和运维 LLM、性能指标、优化技巧和最新的社区经验,非常适合需要让大模型推理更快、更省、更稳定的工程师。
avatar
johann.GPT
1周前
这个文章对 Context Engineering 的解释非常具体详细: Context Engineering是prompt engineering的升级版,不仅设计提示词,更要构建AI系统的完整信息环境。核心包括:system prompt设计、结构化输入输出、tool calling、RAG检索、state管理等。 文章以研究规划agent为例,展示了如何从简单指令扩展到包含时间context、输出格式、字段定义的完整系统。Context engineer需要系统思维,精确定义每个组件,动态管理变化因素,持续优化效果。这已成为AI开发的关键技能。
avatar
johann.GPT
1个月前
最近研究 RAG 多了,很少关注微调,今儿看到一个不错的指南文章,分享一下对 LoRA 和 QLoRA 的理解: LoRA 通过分解权重更新矩阵为小矩阵来高效微调,大幅降低计算资源需求。QLoRA 在此基础上引入 4-bit 量化,结合高精度计算和低精度存储,进一步优化内存使用。两者都能在保持模型性能的同时显著降低训练成本。 特别有趣的是 QLoRA 的量化感知训练机制,通过 LoRA 适配器来补偿量化误差,实现了性能和效率的完美平衡。这些技术让企业能够更经济地部署定制化模型,是 LLM 落地的重要工具。 #AI #LLM #MachineLearning
#LoRA #QLoRA #微调 #模型压缩 #自然语言处理
avatar
johann.GPT
1个月前
Cursor 的 Apply 如何实现每秒 1000 tokens 的文件编辑?比 Cline 、vscode 等快不止一点。(多图展示) 核心突破:Speculative Edits 算法 具体实现机制: • 输入:当前文件内容 + 用户对话历史 + 目标代码块 • 处理:70B 参数的专门训练模型一次性生成完整重写文件 • 关键:不生成 diff,直接输出新文件内容 技术原理:利用代码语法的高度结构化特性,算法可以预测接下来的函数括号、缩进、变量名等 1/3 🧵
#Cursor #Apply #文件编辑 #Cline #VsCode #Speculative Edits #算法
avatar
johann.GPT
1个月前
Cursor 是如何用 Merkle 树 + RAG 实现快速索引代码库? 💡 核心思路: 1️⃣ 本地用 AST 分割代码 → 构建 Merkle 树"指纹" 2️⃣ 只同步变更文件(增量更新,节省 90%+ 带宽) 3️⃣ 代码块 → Embedding 向量 → Turbopuffer 向量数据库 4️⃣ 用户提问 → 语义搜索 → 本地读取源码 → LLM 生成答案 🛡️ 隐私保护:源代码永远不离开本地,只有向量上传云端 ⚡ 效率爆表:Merkle 树让大型代码库秒级同步 🧠 智能理解:用 RAG 检索
#Merkle树 #代码索引 #RAG #LLM #隐私保护 #语义搜索
© 2025 news.news. All rights reserved. 0.0241 秒. v1.0.23
我的评论