#多模态预训练模型

7个月前

昆仑万维推出并开源了多模态统一预训练模型Skywork UniPic。模型融合图像理解、文本生成图像和图像编辑三大核心能力，采用自回归路线，基于大规模高质量数据进行端到端预训练。采用 MAR + SigLIP2 混合架构，兼顾视觉细节与语义理解，突破传统 VQ/VAE 编码器的局限。支持端到端联合训练，实现三大任务协同优化，避免能力权衡。引入 Skywork-ImgReward 与 Skywork-EditReward 两个奖励模型，用于数据筛选与训练增强。用户只需要输入提示词，Skywork-UniPic 既可以像 VLM 一样理解图像、像 T2I 模型一样生成图片，还可以像美图工具一样，一键实现风格转绘/吉卜力化的编辑功能。 1.5B参数规模实现轻量级与高性能的平衡，具备指令遵循、复杂指令生图和图像编辑的领先能力,实现了近乎大型模型的性能，强调了 “小而美” 的技术设计理念。

#昆仑万维 #Skywork UniPic #多模态预训练模型 #图像理解 #文本生成图像