时政
财经
科技
虚拟货币
其他
登录
#多模态预训练模型
关注
sitin
2周前
昆仑万维推出并开源了多模态统一预训练模型Skywork UniPic。 模型融合图像理解、文本生成图像和图像编辑三大核心能力,采用自回归路线,基于大规模高质量数据进行端到端预训练。 采用 MAR + SigLIP2 混合架构,兼顾视觉细节与语义理解,突破传统 VQ/VAE 编码器的局限。支持 端到端联合训练,实现三大任务协同优化,避免能力权衡。引入 Skywork-ImgReward 与 Skywork-EditReward 两个奖励模型,用于数据筛选与训练增强。 用户只需要输入提示词,Skywork-UniPic 既可以像 VLM 一样理解图像、像 T2I 模型一样生成图片,还可以像美图工具一样,一键实现风格转绘/吉卜力化的编辑功能。 1.5B参数规模实现轻量级与高性能的平衡,具备指令遵循、复杂指令生图和图像编辑的领先能力,实现了近乎大型模型的性能,强调了 “小而美” 的技术设计理念。
#昆仑万维
#Skywork UniPic
#多模态预训练模型
#图像理解
#文本生成图像
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞