时政
财经
科技
虚拟货币
其他
登录
#语音驱动
关注
sitin
1个月前
VEED 发布 Fabric 1.0,一款全新 AI 视频生成模型,能够将 可以将任意一张图片 + 你的声音,变成一个会说话的视频,具备逼真的唇形同步与自然的面部表情。非常适合从社交广告、播客视频,到教育教学和产品演示。 操作: 1.上传图片:你只需要提供一张人物、产品或任何角色的正面静态图片。 2.提供声音:你可以直接录制一段语音,或者上传已有的音频文件。 3. AI生成视频:Fabric 1.0 的 AI 模型会自动处理,精准地让图片中的人物口型与你的语音匹配,并赋予自然的面部表情和微动作(如眨眼、点头),生成一段生动的视频。 突出特点: 1.提供多种画面动效模板,支持背景虚化、镜头推拉、字幕叠加等,无需切换软件即可进行基础编辑。 2.无缝接入 VEED 平台的素材库(免版税音乐、音效),以及自动字幕、语音翻译等工具。 注意: ·处理复杂场景能力有限:在处理极端表情(如大笑、大怒)、多角色同框或非常规角度人脸时,生成效果可能还有提升空间。 ·“AI感”可能依然存在:尽管自然度很高,但生成的视频仔细看可能还是会有一丝不真人感,对于追求极致真实的应用场景需谨慎。 ·对输入素材有要求:上传的图片质量、清晰度和角度会对最终效果产生影响。
AI视频井喷:Midjourney领跑,多模态混战· 264 条信息
#AI视频生成
#Fabric 1.0
#VEED
#图片转视频
#语音驱动
分享
评论 0
0
ginobefun
4个月前
#BestBlogs 探秘 TaoAvatar:淘宝 3D 真人数字人技术解析 | 大淘宝技术 淘宝 TaoAvatar 技术实现 3D 真人数字人工业级量产与端侧智能交互。 摘要: 文章详细介绍了淘宝的 TaoAvatar 3D 真人数字人技术体系。该技术融合了多目视觉绑定、动态高斯重建、语音驱动及端侧 AI 推理引擎(MNN-LLM),突破了传统数字人制作成本高、周期长、实时交互难的瓶颈。通过自研算法和硬件方案,TaoAvatar 实现了 2K 级拟真视觉、90FPS 流畅动效和自然的语音表情联动,并将制作成本降至传统 CG 的 1/30,周期缩短至一周。文章还阐述了各核心技术模块的技术细节与创新点,并展示了其在 AWE 虚拟家居体验舱和淘宝 Vision 未来旗舰店等商业场景的应用落地,强调了技术在电商和 XR 领域的实用价值及普惠性趋势。 主要内容: 1. 实现高拟真度 3D 真人数字人复刻,突破视觉极限。 -- 通过多目拍摄、动态高斯重建等技术,达到 2K 分辨率、高精度建模和逼真光影效果,提供近乎真人的视觉体验。 2. 大幅降低数字人制作成本与周期,实现工业级量产。 -- 自研低成本拍摄系统和 AI 算法,将制作周期从数月缩短至一周,成本降至传统 CG 的 1-2 万元,实现规模化生产。 3. 构建端侧多模态智能交互,提供自然流畅的真人对话。 -- 结合端侧大模型和高效推理引擎,实现低延迟、音画同步的语音问答及自然的表情动作联动。 文章链接:
#淘宝
#TaovaoAvatar
#3D真人数字人
#工业级量产
#AI
#MNN-LLM
#多目视觉
#高斯重建
#语音驱动
#端侧智能交互
分享
评论 0
0
Gorden Sun
4个月前
HunyuanVideo-Avatar:语音驱动视频生成 通过音频,生成人物说话的视频,人物有肢体和头部动作,有表情,支持多角色。适用于虚拟人的场景。 模型:
#HunyuanVideo
#语音驱动
#视频生成
#虚拟人
#多角色
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞