腾讯团队提出了一种全新的多智能体框架AudioGenie，用于从多模态输入(如视频、文本、图像)生成多样化且上下文对齐的音频类型(如音效、语音、音乐和歌曲)。采用双层架构，包含生成团队和监督团队。它的核心能力在于能够根据用户输入的文本描述或结合图像信息，自动生成高质量、高保真度的音效和场景声音。简单来说，你可以用文字或“文字+图片”告诉它你想要什么声音，它就能为你创造出来。 AudioG

#AudioGenie #多智能体框架 #音频生成 #扩散模型 #腾讯

相关新闻

花叔

1周前

又是被腾讯🦞支配的一天。早上看完微信ClawBot刷屏，下午就到香港的岭南大学围观腾讯云的一站式装虾活动… 发现香港的大学生对AI的接受度和使用度还蛮高的，不过对大多数人来说安装开源版的OpenClaw又太困难了还有安全顾虑。但是发现几乎所有学生听完腾讯的QClaw分享后就自己装上了，这一波应该真的是大多数人在对话式AI之外，首次体验到Agent的魅力。

 快乐永远 

1周前

冷知识：腾讯最早在腾讯云的中英文混合识别接口（16k_zh_en）中支持 “潮汕话” 的语音识别转文字；但在中文方言识别接口（16k_zh_large) 至今未能支持潮汕话 ….而微信输入法和微信的语音输入，同样还没有支持….

AB Kuai.Dong

1周前

没想到腾讯版的 Figma，也要来了。目前产品名为 Ardot，正在内测阶段。根据网站上的信息显示，相比于普通的设计软件，Ardot 引入了 AI 对话功能，从而让用户下指令给 AI，来完成生成模版、修改设计稿、调整细节的需求。该 AI 模型底层是 DeepSeek。

fatwang2

1周前

腾讯的 Qlaw 放出来新的内测资格了，现在还是一个非常基础的版本，入口依然是微信客服，但感觉不久还是会放开到一级入口，毕竟元宝也这么放开过。

知识分享官

2周前

墙内身边人其实还是停留在如下信息差：知道豆包不知道ChatGPT，知道小龙虾，不知道openclaw（他们甚至以为就是腾讯开发的），知道微博不知道X，知道支付宝不知道PayPal， …… 不用惊讶，就是如此，没人翻墙去关心前沿动态，对AI的使用也仅停留在对话上，你的焦虑纯属来自自媒体之间的互卷