时政
财经
科技
虚拟货币
其他
登录
#交互轨迹数据
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1个月前
我们经常说的LLM的内化是在说什么?-ICL和IWL的协同:ICL探索,IWL固化 Phase 1(探索): 用户通过ICL与LLM交互 发现有效的提示模式、任务格式 ICL快速迭代,找到”what works” Phase 2(固化): 收集这些有效交互的数据 用于微调IWL(如RLHF的新一轮) Phase 3(新平衡): 更新后的IWL使得原本需要复杂prompt的任务 现在变得”天然”(内化到权重中) ICL空间被释放,可以探索更高层的任务 这是一个螺旋上升的循环: ICL → IWL → 更强的ICL → 更强的IWL → … 所以现在的基模厂商为什么要免费?主要是为了收集多样化的交互轨迹数据!
#LLM内化
#ICL
#IWL
#提示模式
#交互轨迹数据
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞