时政
财经
科技
虚拟货币
其他
登录
#通义万相
关注
sitin
3天前
通义万相开源了全新多模态视频生成模型「Wan2.2-S2V」。 模型仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,大幅提升数字人直播、影视制作等行业的视频创作效率。模型支持真人、卡通、动物等多种图片类型,可通过文本控制视频画面。 核心功能 多模态视频生成:仅需一张静态图片 + 一段音频,就能生成电影级数字人视频 支持多种图片类型:真人、卡通、动物、数字人等,支持肖像、半身、全身等任意画幅 多种动作生成:说话、唱歌、表演等动作,面部表情自然、口型同步、肢体动作流畅 技术亮点 视频时长:单次生成可达分钟级,达到业界领先水平 文本控制:支持通过Prompt控制视频画面,让动作和背景变化更丰富 技术创新: 融合文本引导的全局运动控制和音频驱动的细粒度局部运动 采用AdaIN和CrossAttention控制机制 层次化帧压缩技术,支持73帧历史参考帧 多分辨率训练和推理 应用场景 主要提升数字人直播、影视制作、AI教育等行业的视频创作效率
AI视频井喷:Midjourney领跑,多模态混战· 128 条信息
#通义万相
#多模态视频生成
#数字人
#AI
#视频创作
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞