深度角色扮演模型 DeepSex
使用思维链和强化学习技术增强模型角色扮演,小说生成能,提升模型的创作能力。
四阶段进化架构:
增量预训练:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性
Tifa-SFT:融合全球Top4角色扮演模型Tifa的10万条高质量数据
CoT恢复训练:采用Deepseek-32B/671B数据重建推理能力
RL强化:保留发散性思维标签的同时
深度角色扮演模型 DeepSex
使用思维链和强化学习技术增强模型角色扮演,小说生成能,提升模型的创作能力。
四阶段进化架构:
增量预训练:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性
Tifa-SFT:融合全球Top4角色扮演模型Tifa的10万条高质量数据
CoT恢复训练:采用Deepseek-32B/671B数据重建推理能力
RL强化:保留发散性思维标签的同时优化生成质量
工程创新:
16k超长上下文训练
随机截断训练增强鲁棒性
8×H20 GPU全量微调
启示与后续:
我们在测试中发现,满血R1在角色扮演中输出内容比较发散,随机,导致此模型有相同倾向,对于角色扮演的影响还在研究中
输入内容相近的话语会导致向量重叠,然后重复输出,如“继续”,“还有”等无明显指向性话语
思维内容与正文关联性学习了满血R1的特点,发散比较严重,可能会有割裂感
针对以上问题,我们正在编写新的RL算法,初步计划剔除部分满血R1的内容,同时通过强化学习解决重复