search icon

深度角色扮演模型 DeepSex 使用思维链和强化学习技术增强模型角色扮演,小说生成能,提升模型的创作能力。 四阶段进化架构: 增量预训练:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性 Tifa-SFT:融合全球Top4角色扮演模型Tifa的10万条高质量数据 CoT恢复训练:采用Deepseek-32B/671B数据重建推理能力 RL强化:保留发散性思维标签的同时优化生成质量 工程创新: 16k超长上下文训练 随机截断训练增强鲁棒性 8×H20 GPU全量微调 启示与后续: 我们在测试中发现,满血R1在角色扮演中输出内容比较发散,随机,导致此模型有相同倾向,对于角色扮演的影响还在研究中 输入内容相近的话语会导致向量重叠,然后重复输出,如“继续”,“还有”等无明显指向性话语 思维内容与正文关联性学习了满血R1的特点,发散比较严重,可能会有割裂感 针对以上问题,我们正在编写新的RL算法,初步计划剔除部分满血R1的内容,同时通过强化学习解决重复

0/200

评论 0

暂无更多评论