#语音合成

5个月前

🎙️ MiniMax Speech 2.6 发布 ⚡ 延迟 <250ms 🧠 智能文本处理：自动识别网址、日期、数字 🎤 真人级语音：支持克隆音色与情感表达 🌍 40+ 语言，流畅混读但是从演示视频来看，似乎拟人和情感方面没有展示出来，这个演示视频做的太差了。之前Speech 2.5 在中文情感能力方面很不错... 一次失败的演示...

#MiniMax Speech 2.6 #语音合成 #情感表达不足 #演示失败 #中文情感能力待提升

6个月前

阿里的最新TTS：Qwen3-TTS，跨语言混合能力强，感觉基本无缝切换，比Qwen-TTS多了更多的语言和方言支持同样能根据输入文本自动调整韵律、节奏和情绪变化跨语言的音色一致性也比较好中文支持普通话、北京、上海、四川、南京、陕西、闽南、天津、粤语多语言支持英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语做有声书、AI客服、短视频配音的可以看看 #TTS #Qwen3TTS

#Qwen3-TTS #跨语言 #语音合成 #阿里巴巴 #AI

6个月前

IndexTTS2 是 Bilibili 提出的一款新一代零样本语音合成（TTS）模型，其核心目标是实现高精度时长控制与高度自然的情绪表达，同时保持音色一致性，适用于视频配音、内容创作和多模态合成等场景。核心突破与功能亮点 1.精准时长控制：可直接指定语音时长（精确到毫秒），确保与视频口型严格对齐。支持不设限的“自然时长”模式，适应不同场景。 2.音色与情感完全分离（核心创新）：通过对抗训练（GRL）技术，将“是谁说话”（音色）和“怎么说话”（情感）彻底解耦；同一声音可以自由切换开心、愤怒、悲伤等情绪，而音色保持不变。 3.多模态情感控制：文本驱动：只需输入“愤怒地说”等自然语言指令，即可生成对应情绪的语音，极大降低使用门槛；音频参考：也可以提供一段带情绪的音频作为风格参考。 4.高保真与高清晰度：即使在大笑、怒吼等强烈情绪下，语音依然清晰、稳定、不崩坏。这得益于其GPT隐变量增强机制。 5.强大的零样本能力：仅需一段短音频（数秒）即可模仿任何人的音色，并为其注入情感，无需针对该声音进行额外训练。 6.大规模训练与开放性：基于55,000小时的中英文语料训练，表现 robust。技术架构精要模型采用四模块流水线，分工明确： 1.Text-to-Emotion (T2E)：将“请悲伤地说话”等文本指令，转换为机器能理解的情绪向量。 2.Text-to-Semantic (T2S)：核心模块。结合文本、音色、情绪向量和时长信息，生成带情感的语义内容。采用三阶段训练确保音色与情感分离。 3.Semantic-to-Mel (S2M)：将语义内容转换为声谱图，引入GPT隐藏状态来增强清晰度。 4.Vocoder：将声谱图合成为最终的高保真音频波形。 ndexTTS2 的核心价值在于其“控制力”： ·控制时长 → 完美对口型，解锁影视配音场景。 ·控制情感 → 用文字或音频自由驱动情绪，且不影响音色。 ·控制质量 → 在任何情绪下都能保证声音清晰自然。它不再是简单的“文本转语音”，而是一个高度可控、表现力丰富的声音表演引擎，为内容创作、游戏、动画、有声书等领域带来了新的可能性。

#IndexTTS2 #语音合成 #情感控制 #零样本 #Bilibili

6个月前

B站的IndexTTS2开源了，有没有已经部署的，看看效果是不是像Demo那样牛逼？ Github：模型：

#B站 #IndexTTS2 #开源 #语音合成 #技术

7个月前

昆仑万维正式上线Mureka V7.5模型。模型在中文歌曲创作上取得重大突破，提升了音色与演奏技法，优化了咬字和情感表现。通过ASR技术精准捕捉演唱细节，使AI演绎的歌曲更贴近真人演唱，人声表现真实性飞跃： 1.优化ASR技术，深入分析演唱细节（气息、情感起伏、唱法）。 2.智能划分乐句，确定自然换气与停顿位置。 3.提升生成人声的段落清晰度、结构真实感、自然度、呼吸感和情感表达真实性，大幅削弱机械感。这是首个基于 Mixture-of-Experts 的“角色描述语音合成框架”，特点包括： 1.自然语言控制：仅用文字描述即可精准定义音色与风格（如“清澈少年音带磁性尾韵”）。 2.开放域泛化：在仅使用开源数据的情况下，对标甚至超越闭源商业模型的角色贴合度。 3.技术路径：通过“模态解耦 + 知识冻结迁移”，实现文本与语音专家模块的独立优化。 4.应用规划：后续将集成至 Mureka-Speech 平台，为全球开发者提供开放、可定制的描述性语音合成能力。

#昆仑万维 #Mureka V7.5模型 #AI音乐创作 #语音合成 #技术突破

7个月前

这条动态是使用 mac 上的 Spokenly，加上 ElevenLabs 的 API 完成的输入

#Spokenly #ElevenLabs API #Mac #语音合成 #技术

7个月前

这个 TTS 效果真的是很赞啊前段时间在密集调研各种 TTS，大家推荐了很多，使用了一圈下来，基本都是情绪平平，没有什么感情波动，生硬机械，停顿和呼吸不自然，句尾发音总像「提前收尾」一样直到最近推发现的 #FlowSpeech，一个说话有人味儿的 TTS，效果是真的很赞啊

#FlowSpeech #TTS #语音合成 #人味儿 #效果赞

8个月前

ElevenLabs v3语音模型，AI语音的言出法随时刻

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#elevenlabs #v3语音模型 #AI语音 #语音合成 #技术进展

10个月前

好消息是：gemini live api 支持中文了坏消息是：中文tts效果基本没法听

#gemini live #API #中文支持 #TTS #语音合成

11个月前

阿里开源的Cosyvoice2 TTS质量真不错。 Mac M3 24G本地就能运行，0.5b版本就够用，也比较快。外语支持英文、日文、韩文。汉语支持普通话、四川话、南京话、天津话等各地方言。还能通过提示词指定语气、情绪。还能通过特殊标记添加笑声等精细化控制。本地运行，没审查，什么内容都能合成！

#阿里开源 #Cosyvoice2 #TTS #语音合成 #外语支持 #多地方言 #情绪控制 #本地运行 #无审查

1年前

兄弟们，这个全新的语音模型很厉害已经无法分辨了 Sesame： “跨越语音“恐怖谷” ，像真人说话一样的语音模型当人工合成的语音接近真实人声但仍然存在微小差异时，人类会感到奇怪或不适，这就是所谓的“恐怖谷效应”。 Sesame 公司展示了其最新的语音合成模型CSM，它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。

#语音模型 #恐怖谷效应 #语音合成 #Sesame公司 #CSM

1年前

PM学编程第7天：用扣子做个听故事学英语学习小工具看到小互提到扣子刚上线了Deepseek-V3 和R1，还有豆包的 function calling版。好奇推理模型加持，应用搭建速度是否会提升。发现扣子还挺好玩的，当然，过程也遇到不少坑。 1. 语音合成插件太多，推荐“英语文本转语音”插件。 2. 为用户体验，设计“故事播放”卡片，绑定了工作流。（图片和音频地址URL别用测试生成的，否则审核不通过） 3. 第一次用扣子的数据库，默认有4不能修改的字段，上传数据只需新增字段csv文件。 4. 配置工作流，比想象中简单，让大模型连接原始数据，写Prompt生成要返回的字段变量。有人感兴趣的话，我抽空写个详细教程。

#编程学习 #英语学习 #人工智能 #工具开发 #语音合成 #模型应用 #用户体验

1年前

PM学编程第6天：开发一个MCP server 昨天安装测试不少MCP （如Fetch、Obsidian、sequential-thinking、brave search、playwright等）惊叹的同时，很想自己做一个。仅需说话就能完成复杂任务，确实是件很酷的事情。过程比想象中简单，甚至不用看官方文档。只需VS安装Cline 或 Roo Code插件，然后说：我要做一个xxx的MCP，然后描述功能需求。 AI会自动生成代码，读取修改MCP 配置文件，不断修改测试就能完成。做了一个海螺音频的MCP。只需要说，用xx声音，朗读“xxx”（可以是文字也可以文件名），就会自动调用MCP，把文本用这个音色生成一个MP3文件。优势：每个MCP 可以跟其他MCP工作流整合，比如直接说抓取Paulgraham 的第3篇，生成双语对照，然后用中年男生朗读。感受：像Coze、Dify这类工具要尽快演化，否则很容易被各种 MCP 取代，拖拽连线成本太高了。普通用户未来可能只是安装了一堆MCP插件，只需要用语言描述任务即可。

#MCP #AI编程 #语音合成 #工作流整合 #Coze/Dify替代

1年前

我去这个语音克隆模型有点牛P 哈哈哈使用了 250,000 小时的中英双语语音数据训练只需15秒的声音就能完美克隆声音，保持音色和情感 Llasa-3B 可以通过输入一个带有情感特征的语音提示（Prompt），在生成目标语音时保留提示语音中的情感特征。基于 LLaMA 语言模型（ 1B、3B 和 8B 参数规模），通过整合 XCodec2 的语音 token 提供语音生成功能。

#语音克隆 #Llasa-3B #情感特征 #语言模型 #语音合成

karminski-牙医

1年前

kotoro-TTS 荣登 TTS Arena 排行榜第一名，录了个视频大家可以看下它中文的语音合成效果。值得一提的是，这个模型只有 82M，树莓派都能跑。而且是 MIT 协议的。排行榜地址：在线测试地址：

#kotoro-TTS #TTS Arena #语音合成 #中文 #模型 #树莓派 #MIT 协议