时政
财经
科技
虚拟货币
其他
登录
#风格驱动
关注
sitin
15小时前
USO(Unified Style-Subject Optimized 模型) 是字节跳动提出的一个统一图像生成模型, 融合了风格驱动生成与主体驱动生成两个任务,并通过创新的训练机制将它们整合在一个统一框架中,解决了二者长期以来分离、互相影响的问题。 性能优势 在 USO-Bench 和 DreamBench 评测中全面领先: 主体一致性(CLIP-I, DINO)优于主流模型; 风格相似性(CSD)显著超过 DEADiff、StyleStudio 等; 图文匹配度(CLIP-T)保持高水平。 关键技术 三元组训练数据(Triplets) 使用(内容图 + 风格图 + 结果图)作为训练样本,让模型学会分离风格与主体特征并融合。 风格对齐训练(Style Alignment) 采用视觉语言模型 SigLIP 提取高层次风格特征(如笔触、材质),并通过分层投影注入生成过程。 风格奖励学习(Style Reward Learning, SRL) 引入奖励机制,用预训练模型评估生成图像与目标风格的相似度,强化风格还原能力。 功能 主体驱动生成 保留主体(如人物、宠物)特征,生成新背景或姿态。 风格驱动生成 仅凭风格参考图+文本生成对应风格的图像。 风格+主体联合生成 同时输入风格图和内容图,生成既保真又风格化的图像。 多风格融合生成 支持多张风格图混合生成(如油画+水彩)。 布局保持生成 仅改变风格,不改变原图布局与主体结构。
#USO模型
#图像生成
#风格驱动
#主体驱动
#字节跳动
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞