orange.ai 0 关注者 关注 7个月前 深度角色扮演模型 DeepSex 使用思维链和强化学习技术增强模型角色扮演,小说生成能,提升模型的创作能力。 四阶段进化架构: 增量预训练:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性 Tifa-SFT:融合全球Top4角色扮演模型Tifa的10万条高质量数据 CoT恢复训练:采用Deepseek-32B/671B数据重建推理能力 RL强化:保留发散性思维标签的同时 #深度角色扮演 #DeepSex #思维链 #强化学习 #模型创作 #小说生成 #预训练 #角色扮演模型 前往原网页查看