时政
财经
科技
虚拟货币
其他
登录
#语音合成
关注
AIGCLINK
1周前
阿里的最新TTS:Qwen3-TTS,跨语言混合能力强,感觉基本无缝切换,比Qwen-TTS多了更多的语言和方言支持 同样能根据输入文本自动调整韵律、节奏和情绪变化 跨语言的音色一致性也比较好 中文支持普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语 多语言支持英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语 做有声书、AI客服、短视频配音的可以看看 #TTS #Qwen3TTS
#Qwen3-TTS
#跨语言
#语音合成
#阿里巴巴
#AI
分享
评论 0
0
sitin
2周前
IndexTTS2 是 Bilibili 提出的一款新一代零样本语音合成(TTS)模型,其核心目标是实现高精度时长控制与高度自然的情绪表达,同时保持音色一致性,适用于视频配音、内容创作和多模态合成等场景。 核心突破与功能亮点 1.精准时长控制:可直接指定语音时长(精确到毫秒),确保与视频口型严格对齐。支持不设限的“自然时长”模式,适应不同场景。 2.音色与情感完全分离(核心创新):通过对抗训练(GRL) 技术,将“是谁说话”(音色)和“怎么说话”(情感)彻底解耦;同一声音可以自由切换开心、愤怒、悲伤等情绪,而音色保持不变。 3.多模态情感控制:文本驱动:只需输入“愤怒地说”等自然语言指令,即可生成对应情绪的语音,极大降低使用门槛;音频参考:也可以提供一段带情绪的音频作为风格参考。 4.高保真与高清晰度:即使在大笑、怒吼等强烈情绪下,语音依然清晰、稳定、不崩坏。这得益于其GPT隐变量增强机制。 5.强大的零样本能力:仅需一段短音频(数秒)即可模仿任何人的音色,并为其注入情感,无需针对该声音进行额外训练。 6.大规模训练与开放性:基于55,000小时的中英文语料训练,表现 robust。 技术架构精要 模型采用四模块流水线,分工明确: 1.Text-to-Emotion (T2E):将“请悲伤地说话”等文本指令,转换为机器能理解的情绪向量。 2.Text-to-Semantic (T2S):核心模块。结合文本、音色、情绪向量和时长信息,生成带情感的语义内容。采用三阶段训练确保音色与情感分离。 3.Semantic-to-Mel (S2M):将语义内容转换为声谱图,引入GPT隐藏状态来增强清晰度。 4.Vocoder:将声谱图合成为最终的高保真音频波形。 ndexTTS2 的核心价值在于其“控制力”: ·控制时长 → 完美对口型,解锁影视配音场景。 ·控制情感 → 用文字或音频自由驱动情绪,且不影响音色。 ·控制质量 → 在任何情绪下都能保证声音清晰自然。 它不再是简单的“文本转语音”,而是一个高度可控、表现力丰富的声音表演引擎,为内容创作、游戏、动画、有声书等领域带来了新的可能性。
#IndexTTS2
#语音合成
#情感控制
#零样本
#Bilibili
分享
评论 0
0
Gorden Sun
3周前
B站的IndexTTS2开源了,有没有已经部署的,看看效果是不是像Demo那样牛逼? Github: 模型:
#B站
#IndexTTS2
#开源
#语音合成
#技术
分享
评论 0
0
sitin
1个月前
昆仑万维正式上线Mureka V7.5模型。模型在中文歌曲创作上取得重大突破,提升了音色与演奏技法,优化了咬字和情感表现。 通过ASR技术精准捕捉演唱细节,使AI演绎的歌曲更贴近真人演唱,人声表现真实性飞跃: 1.优化ASR技术,深入分析演唱细节(气息、情感起伏、唱法)。 2.智能划分乐句,确定自然换气与停顿位置。 3.提升生成人声的段落清晰度、结构真实感、自然度、呼吸感和情感表达真实性,大幅削弱机械感。 这是首个基于 Mixture-of-Experts 的“角色描述语音合成框架”,特点包括: 1.自然语言控制:仅用文字描述即可精准定义音色与风格(如“清澈少年音带磁性尾韵”)。 2.开放域泛化:在仅使用开源数据的情况下,对标甚至超越闭源商业模型的角色贴合度。 3.技术路径:通过“模态解耦 + 知识冻结迁移”,实现文本与语音专家模块的独立优化。 4.应用规划:后续将集成至 Mureka-Speech 平台,为全球开发者提供开放、可定制的描述性语音合成能力。
#昆仑万维
#Mureka V7.5模型
#AI音乐创作
#语音合成
#技术突破
分享
评论 0
0
dontbesilent
1个月前
这条动态是使用 mac 上的 Spokenly,加上 ElevenLabs 的 API 完成的输入
#Spokenly
#ElevenLabs API
#Mac
#语音合成
#技术
分享
评论 0
0
AppSail.dev
1个月前
这个 TTS 效果真的是很赞啊 前段时间在密集调研各种 TTS,大家推荐了很多,使用了一圈下来,基本都是 情绪平平,没有什么感情波动,生硬机械,停顿和呼吸不自然,句尾发音总像「提前收尾」一样 直到最近推发现的 #FlowSpeech,一个说话有人味儿的 TTS,效果是真的很赞啊
#FlowSpeech
#TTS
#语音合成
#人味儿
#效果赞
分享
评论 0
0
Gorden Sun
2个月前
ElevenLabs v3语音模型,AI语音的言出法随时刻
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
#elevenlabs
#v3语音模型
#AI语音
#语音合成
#技术进展
分享
评论 0
0
Leo Xiang
4个月前
好消息是:gemini live api 支持中文了 坏消息是: 中文tts效果基本没法听
#gemini live
#API
#中文支持
#TTS
#语音合成
分享
评论 0
0
向阳乔木
5个月前
阿里开源的Cosyvoice2 TTS质量真不错。 Mac M3 24G本地就能运行,0.5b版本就够用,也比较快。 外语支持英文、日文、韩文。 汉语支持普通话、四川话、南京话、天津话等各地方言。 还能通过提示词指定语气、情绪。还能通过特殊标记添加笑声等精细化控制。 本地运行,没审查,什么内容都能合成!
#阿里开源
#Cosyvoice2
#TTS
#语音合成
#外语支持
#多地方言
#情绪控制
#本地运行
#无审查
分享
评论 0
0
小互
6个月前
兄弟们,这个全新的语音模型很厉害 已经无法分辨了 Sesame: “跨越语音“恐怖谷” ,像真人说话一样的语音模型 当人工合成的语音接近真实人声但仍然存在微小差异时,人类会感到奇怪或不适,这就是所谓的“恐怖谷效应”。 Sesame 公司展示了其最新的语音合成模型CSM, 它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。
#语音模型
#恐怖谷效应
#语音合成
#Sesame公司
#CSM
分享
评论 0
0
向阳乔木
7个月前
PM学编程第7天:用扣子做个听故事学英语学习小工具 看到小互提到扣子刚上线了Deepseek-V3 和R1,还有豆包的 function calling版。 好奇推理模型加持,应用搭建速度是否会提升。 发现扣子还挺好玩的,当然,过程也遇到不少坑。 1. 语音合成插件太多,推荐“英语文本转语音”插件。 2. 为用户体验,设计“故事播放”卡片,绑定了工作流。(图片和音频地址URL别用测试生成的,否则审核不通过) 3. 第一次用扣子的数据库,默认有4不能修改的字段,上传数据只需新增字段csv文件。 4. 配置工作流,比想象中简单,让大模型连接原始数据,写Prompt生成要返回的字段变量。 有人感兴趣的话,我抽空写个详细教程。
#编程学习
#英语学习
#人工智能
#工具开发
#语音合成
#模型应用
#用户体验
分享
评论 0
0
向阳乔木
7个月前
PM学编程第6天:开发一个MCP server 昨天安装测试不少MCP (如Fetch、Obsidian、sequential-thinking、brave search、playwright等) 惊叹的同时,很想自己做一个。 仅需说话就能完成复杂任务,确实是件很酷的事情。 过程比想象中简单,甚至不用看官方文档。 只需VS安装Cline 或 Roo Code插件,然后说:我要做一个xxx的MCP,然后描述功能需求。 AI会自动生成代码,读取修改MCP 配置文件,不断修改测试就能完成。 做了一个海螺音频的MCP。 只需要说,用xx声音,朗读“xxx”(可以是文字也可以文件名),就会自动调用MCP,把文本用这个音色生成一个MP3文件。 优势:每个MCP 可以跟其他MCP工作流整合,比如直接说抓取Paulgraham 的第3篇,生成双语对照,然后用中年男生朗读。 感受:像Coze、Dify这类工具要尽快演化,否则很容易被各种 MCP 取代,拖拽连线成本太高了。 普通用户未来可能只是安装了一堆MCP插件,只需要用语言描述任务即可。
#MCP
#AI编程
#语音合成
#工作流整合
#Coze/Dify替代
分享
评论 0
0
小互
8个月前
我去 这个语音克隆模型有点牛P 哈哈哈 使用了 250,000 小时的中英双语语音数据训练 只需15秒的声音就能完美克隆声音,保持音色和情感 Llasa-3B 可以通过输入一个带有情感特征的语音提示(Prompt),在生成目标语音时保留提示语音中的情感特征。 基于 LLaMA 语言模型( 1B、3B 和 8B 参数规模),通过整合 XCodec2 的语音 token 提供语音生成功能。
#语音克隆
#Llasa-3B
#情感特征
#语言模型
#语音合成
分享
评论 0
0
karminski-牙医
8个月前
kotoro-TTS 荣登 TTS Arena 排行榜第一名,录了个视频大家可以看下它中文的语音合成效果。 值得一提的是,这个模型只有 82M,树莓派都能跑。而且是 MIT 协议的。 排行榜地址: 在线测试地址:
#kotoro-TTS
#TTS Arena
#语音合成
#中文
#模型
#树莓派
#MIT 协议
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞