小互2025-06-06 08:43:00兄弟们,牛P了 11Labs 推出 Eleven v3(Alpha 版) 应该是目前地表最强的文本转语音模型了 它 不仅会说话,还能演戏 支持 70 多种语言 多个角色间的自然对话 以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达 与旧版本相比,v3 拥有更强的文本理解能力,可以模拟真实对话中的中断、情感变化与语气调整。
sitin2025-06-04 16:17:00豆包视频通话究竟牛在哪里? 可能有些朋友会觉得:"不就是个视频通话吗?我和对象天天都在视频啊!" 那可不一样啊,人和人视频通话,是因为我们都有大脑,能互相理解和共情。但AI视频通话可不一样,它不仅能看到画面,还能实时理解和分析它所看到的一切。 这就好比以前的AI,就像个只会接电话的客服,你跟它描述半天,它可能还是一头雾水地回答:"抱歉,我不太明白您的意思"。 现在的豆包,不仅能看见,更能看
karminski-牙医2025-06-04 08:30:30现在已经有多家公司发布了AI视频编辑框架了,比如Google I/O 上发布的 Flow。那么有没有AI音频编辑框架呢?来看——PlayDiffusion PlayDiffusion 这个框架可以将音频中的任意内容进行替换,比如,原始音频是 "吃了吗您",只需要打字,就能将音频修改为 "吃韭菜了吗您" 。具体效果可以看视频中的demo。非常丝滑听不到明显的过渡。 框架地址:
ilovelife2025-05-30 11:12:45#每日推荐 强大的 Whisper 模型简化音视频工具 它允许用户选择自定义模型、语言和任务,并通过调整光束大小进行精细的转 scrib 优化,还可以指定起始和结束时间进行分段处理。