#LLM内化

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

1个月前

我们经常说的LLM的内化是在说什么？-ICL和IWL的协同：ICL探索，IWL固化 Phase 1（探索）：用户通过ICL与LLM交互发现有效的提示模式、任务格式 ICL快速迭代，找到”what works” Phase 2（固化）：收集这些有效交互的数据用于微调IWL（如RLHF的新一轮） Phase 3（新平衡）：更新后的IWL使得原本需要复杂prompt的任务现在变得”天然”（内化到权重中） ICL空间被释放，可以探索更高层的任务这是一个螺旋上升的循环： ICL → IWL → 更强的ICL → 更强的IWL → … 所以现在的基模厂商为什么要免费？主要是为了收集多样化的交互轨迹数据！

#LLM内化 #ICL #IWL #提示模式 #交互轨迹数据

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

4个月前

AI创业，一路观察下来，一直有点与虎谋皮的感觉： prompt套壳chatbot时代，一不小心CoT内化了LLM会思考了； code工具时代，cursor这些一不小心又被swe-agent的各种code-cli给干趴下了； agent脚手架时代，眼看着想结合LLM的推理能力MCP嫁接工具调用，没想到ReACT又被内化了，各种ReTool，RePlan，甚至ReMem、ReDebate也来了；眼下已经进入agentic AI时代，工作流又被越来越agentic的LLM给逼得低头让路…… 更严格的指令遵循agent、更能plan和exec解耦的agent，以及更丰富的ReTool调用的agent，结合MCP/ACP/A2A和ANP！好一个agentic的AI数字世界。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1203 条信息

#AI创业 #与虎谋皮 #Agentic AI #LLM内化 #ReTool