#音频生成

5个月前

LTXStudio发布LTX-2视频模型类似Veo3和Sora2，可以同时生成视频和音频，效果不错。后续会开源。

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#LTXStudio #LTX-2视频模型 #视频生成 #音频生成 #开源

5个月前

Ovi：开源版Veo 3 能生成视频的同时生成音频，嘴型能和语音保持同步，能生成音效。模型：

AI视频井喷：Midjourney领跑，多模态混战· 337 条信息

#Ovi #开源 #Veo 3 #视频生成 #音频生成

7个月前

腾讯团队提出了一种全新的多智能体框架AudioGenie，用于从多模态输入(如视频、文本、图像)生成多样化且上下文对齐的音频类型(如音效、语音、音乐和歌曲)。采用双层架构，包含生成团队和监督团队。它的核心能力在于能够根据用户输入的文本描述或结合图像信息，自动生成高质量、高保真度的音效和场景声音。简单来说，你可以用文字或“文字+图片”告诉它你想要什么声音，它就能为你创造出来。 AudioGenie旨在生成非常逼真、自然的声音，尽可能减少人工合成的痕迹，达到接近真实录音的水平。用户可以通过修改文本提示词，对生成的声音进行精细的控制和编辑。例如，可以先生成“燃烧的火焰”声，然后修改提示词为“燃烧的火焰声，但火势更大，伴有木材噼啪声”，来获得一个不同版本的声音。与很多先进的生成式AI（如Stable Diffusion for images）类似，AudioGenie很可能采用了扩散模型作为其核心技术。扩散模型通过一个“去噪”过程，从随机噪声逐步构建出目标音频，这种方法在生成高质量、多样化的样本方面表现出色。

#AudioGenie #多智能体框架 #音频生成 #扩散模型 #腾讯

8个月前

跟ElevenLabs生成的对话相比，豆包播客和NotebookLM生成的音频还是太机械了。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#elevenlabs #豆包播客 #NotebookLM #音频生成 #机械感

9个月前

最近在折腾内容播客这块，想开个播客频道，把我的Xiaohu AI日报转成每日播客，试了很多，发现扣子空间的「播客音频生成」的功能挺符合我的预期。它可以将任何内容一键转为语音播客，而且使用起来非常的方便可以说是傻瓜式的写了一批昂详细的多场景实测与详细使用指南，你们参考下。你只需要说：根据「你提供的链接、文档、图像、文字、聊天记录」内容，帮我生成xx分钟的播客内容。就这样就可以了，没有什么复杂的，它就全自动执行

#播客 #内容创作 #音频生成 #科技创新 #Xiaohu AI日报 #工具推荐

10个月前

谷歌AI Studio也更新了。 Live audio generation效果太好了，响应也超快。跟AI英语对话，可以练练口语。 Native speech generation也不错，支持提炼文稿中的对话者，设定音色生成播客。（可惜不支持中文）

#谷歌AI Studio #音频生成 #英语对话 #播客生成 #技术更新

1年前

AI工具组合做儿童绘本故事教程 1. 最优秀的是音频部分，本地开源的kokoroTTS，M1以上机器就能跑，英语女声很优秀。 2. Claude写剧情故事，这里的技巧是让模仿知名绘本作家的写作，其中Mem Fox风格短句多，个人觉得还可以。 • Maurice Sendak（莫里斯·桑达克）：《野兽国》的作者，被誉为20世纪最重要的儿童绘本作家之一。 • Eric Carle（艾瑞·卡尔）：《好饿的毛毛虫》作者，以独特的拼贴艺术风格闻名，作品被翻译成65种语言。 • Tomie dePaola（托米·狄波拉）：创作了《斯特雷加·诺娜》等经典作品，获得过考狄克奖荣誉奖。 • Mem Fox（梅姆·福克斯）：澳大利亚最著名的儿童书籍作家，创作了超过40本图画书，同时也是大声朗读的倡导者。 3. Claude生成场景图片提示词，Prompt [故事情节] 我要设计一个绘本，以上是故事情节，需要多张AI生成的图片来讲述这个故事，你是Midjourney大师，整理所有场景画面，模仿知名绘本的风格，保持画风一致，一个场景一个生成图片的提示词。 4. 将提示词放到Flux Pro中生成图片，需要尝试抽卡 5. 剪映拼接图片、音频，导出视频

#AI工具 #儿童绘本 #剧情创作 #KokoroTTS #Claude #音频生成