#多智能体框架

1个月前

腾讯团队提出了一种全新的多智能体框架AudioGenie，用于从多模态输入(如视频、文本、图像)生成多样化且上下文对齐的音频类型(如音效、语音、音乐和歌曲)。采用双层架构，包含生成团队和监督团队。它的核心能力在于能够根据用户输入的文本描述或结合图像信息，自动生成高质量、高保真度的音效和场景声音。简单来说，你可以用文字或“文字+图片”告诉它你想要什么声音，它就能为你创造出来。 AudioGenie旨在生成非常逼真、自然的声音，尽可能减少人工合成的痕迹，达到接近真实录音的水平。用户可以通过修改文本提示词，对生成的声音进行精细的控制和编辑。例如，可以先生成“燃烧的火焰”声，然后修改提示词为“燃烧的火焰声，但火势更大，伴有木材噼啪声”，来获得一个不同版本的声音。与很多先进的生成式AI（如Stable Diffusion for images）类似，AudioGenie很可能采用了扩散模型作为其核心技术。扩散模型通过一个“去噪”过程，从随机噪声逐步构建出目标音频，这种方法在生成高质量、多样化的样本方面表现出色。

#AudioGenie #多智能体框架 #音频生成 #扩散模型 #腾讯