sitin

sitin

0 关注者

2天前

腾讯团队提出了一种全新的多智能体框架AudioGenie,用于从多模态输入(如视频、文本、图像)生成多样化且上下文对齐的音频类型(如音效、语音、音乐和歌曲)。采用双层架构,包含生成团队和监督团队。 它的核心能力在于能够根据用户输入的文本描述或结合图像信息,自动生成高质量、高保真度的音效和场景声音。 简单来说,你可以用文字或“文字+图片”告诉它你想要什么声音,它就能为你创造出来。 AudioG