#语音驱动

6个月前

VEED 发布 Fabric 1.0，一款全新 AI 视频生成模型，能够将可以将任意一张图片 + 你的声音，变成一个会说话的视频，具备逼真的唇形同步与自然的面部表情。非常适合从社交广告、播客视频，到教育教学和产品演示。操作： 1.上传图片：你只需要提供一张人物、产品或任何角色的正面静态图片。 2.提供声音：你可以直接录制一段语音，或者上传已有的音频文件。 3. AI生成视频：Fabric 1.0 的 AI 模型会自动处理，精准地让图片中的人物口型与你的语音匹配，并赋予自然的面部表情和微动作（如眨眼、点头），生成一段生动的视频。突出特点： 1.提供多种画面动效模板，支持背景虚化、镜头推拉、字幕叠加等，无需切换软件即可进行基础编辑。 2.无缝接入 VEED 平台的素材库（免版税音乐、音效），以及自动字幕、语音翻译等工具。注意： ·处理复杂场景能力有限：在处理极端表情（如大笑、大怒）、多角色同框或非常规角度人脸时，生成效果可能还有提升空间。 ·“AI感”可能依然存在：尽管自然度很高，但生成的视频仔细看可能还是会有一丝不真人感，对于追求极致真实的应用场景需谨慎。 ·对输入素材有要求：上传的图片质量、清晰度和角度会对最终效果产生影响。

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#AI视频生成 #Fabric 1.0 #VEED #图片转视频 #语音驱动

9个月前

#BestBlogs 探秘 TaoAvatar：淘宝 3D 真人数字人技术解析 | 大淘宝技术淘宝 TaoAvatar 技术实现 3D 真人数字人工业级量产与端侧智能交互。摘要：文章详细介绍了淘宝的 TaoAvatar 3D 真人数字人技术体系。该技术融合了多目视觉绑定、动态高斯重建、语音驱动及端侧 AI 推理引擎（MNN-LLM），突破了传统数字人制作成本高、周期长、实时交互难的瓶颈。通过自研算法和硬件方案，TaoAvatar 实现了 2K 级拟真视觉、90FPS 流畅动效和自然的语音表情联动，并将制作成本降至传统 CG 的 1/30，周期缩短至一周。文章还阐述了各核心技术模块的技术细节与创新点，并展示了其在 AWE 虚拟家居体验舱和淘宝 Vision 未来旗舰店等商业场景的应用落地，强调了技术在电商和 XR 领域的实用价值及普惠性趋势。主要内容: 1. 实现高拟真度 3D 真人数字人复刻，突破视觉极限。 -- 通过多目拍摄、动态高斯重建等技术，达到 2K 分辨率、高精度建模和逼真光影效果，提供近乎真人的视觉体验。 2. 大幅降低数字人制作成本与周期，实现工业级量产。 -- 自研低成本拍摄系统和 AI 算法，将制作周期从数月缩短至一周，成本降至传统 CG 的 1-2 万元，实现规模化生产。 3. 构建端侧多模态智能交互，提供自然流畅的真人对话。 -- 结合端侧大模型和高效推理引擎，实现低延迟、音画同步的语音问答及自然的表情动作联动。文章链接：

#淘宝 #TaovaoAvatar #3D真人数字人 #工业级量产 #AI #MNN-LLM #多目视觉 #高斯重建 #语音驱动 #端侧智能交互

10个月前

HunyuanVideo-Avatar：语音驱动视频生成通过音频，生成人物说话的视频，人物有肢体和头部动作，有表情，支持多角色。适用于虚拟人的场景。模型：

#HunyuanVideo #语音驱动 #视频生成 #虚拟人 #多角色