时政
财经
科技
虚拟货币
其他
登录
#音频生成
关注
sitin
1个月前
腾讯团队提出了一种全新的多智能体框架AudioGenie,用于从多模态输入(如视频、文本、图像)生成多样化且上下文对齐的音频类型(如音效、语音、音乐和歌曲)。采用双层架构,包含生成团队和监督团队。 它的核心能力在于能够根据用户输入的文本描述或结合图像信息,自动生成高质量、高保真度的音效和场景声音。 简单来说,你可以用文字或“文字+图片”告诉它你想要什么声音,它就能为你创造出来。 AudioGenie旨在生成非常逼真、自然的声音,尽可能减少人工合成的痕迹,达到接近真实录音的水平。 用户可以通过修改文本提示词,对生成的声音进行精细的控制和编辑。例如,可以先生成“燃烧的火焰”声,然后修改提示词为“燃烧的火焰声,但火势更大,伴有木材噼啪声”,来获得一个不同版本的声音。 与很多先进的生成式AI(如Stable Diffusion for images)类似,AudioGenie很可能采用了扩散模型 作为其核心技术。扩散模型通过一个“去噪”过程,从随机噪声逐步构建出目标音频,这种方法在生成高质量、多样化的样本方面表现出色。
#AudioGenie
#多智能体框架
#音频生成
#扩散模型
#腾讯
分享
评论 0
0
Gorden Sun
2个月前
跟ElevenLabs生成的对话相比,豆包播客和NotebookLM生成的音频还是太机械了。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
#elevenlabs
#豆包播客
#NotebookLM
#音频生成
#机械感
分享
评论 0
0
小互
3个月前
最近在折腾内容播客这块,想开个播客频道,把我的Xiaohu AI日报转成每日播客,试了很多,发现扣子空间的「播客音频生成」的功能挺符合我的预期。 它可以将任何内容一键转为语音播客 ,而且使用起来非常的方便 可以说是傻瓜式的 写了一批昂详细的多场景实测与详细使用指南,你们参考下。 你只需要说: 根据「你提供的链接、文档、图像、文字、聊天记录」内容,帮我生成xx分钟的播客内容。 就这样就可以了,没有什么复杂的,它就全自动执行
#播客
#内容创作
#音频生成
#科技创新
#Xiaohu AI日报
#工具推荐
分享
评论 0
0
向阳乔木
4个月前
谷歌AI Studio也更新了。 Live audio generation效果太好了,响应也超快。 跟AI英语对话,可以练练口语。 Native speech generation也不错,支持提炼文稿中的对话者,设定音色生成播客。(可惜不支持中文)
#谷歌AI Studio
#音频生成
#英语对话
#播客生成
#技术更新
分享
评论 0
0
向阳乔木
8个月前
AI工具组合做儿童绘本故事教程 1. 最优秀的是音频部分,本地开源的kokoroTTS,M1以上机器就能跑,英语女声很优秀。 2. Claude写剧情故事,这里的技巧是让模仿知名绘本作家的写作,其中Mem Fox风格短句多,个人觉得还可以。 • Maurice Sendak(莫里斯·桑达克):《野兽国》的作者,被誉为20世纪最重要的儿童绘本作家之一。 • Eric Carle(艾瑞·卡尔):《好饿的毛毛虫》作者,以独特的拼贴艺术风格闻名,作品被翻译成65种语言。 • Tomie dePaola(托米·狄波拉):创作了《斯特雷加·诺娜》等经典作品,获得过考狄克奖荣誉奖。 • Mem Fox(梅姆·福克斯):澳大利亚最著名的儿童书籍作家,创作了超过40本图画书,同时也是大声朗读的倡导者。 3. Claude生成场景图片提示词,Prompt [故事情节] 我要设计一个绘本,以上是故事情节,需要多张AI生成的图片来讲述这个故事,你是Midjourney大师,整理所有场景画面,模仿知名绘本的风格,保持画风一致,一个场景一个生成图片的提示词。 4. 将提示词放到Flux Pro中生成图片,需要尝试抽卡 5. 剪映拼接图片、音频,导出视频
#AI工具
#儿童绘本
#剧情创作
#KokoroTTS
#Claude
#音频生成
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞