#TTS

3个月前

不露脸、不剪辑，3步生成口播短视频！ 1. 刚才的提示词生成文案脚本。 2. 文案发给Listenhub新功能“Explainer Video” 3.选自己的声音TTS，一分钟生成视频

#口播短视频 #ListenHub #Explainer Video #TTS #AI

4个月前

即梦4.0，一键生成儿童故事绘本，支持中文故事，效果非常好，而且免费。唯一的缺憾是目前不会生成音频，顺手加上TTS，其他家就没必要做了。

#儿童故事 #绘本 #中文故事 #免费 #TTS

5个月前

FireRedTTS-2：小红书开源的TTS 一次性能生成3分钟长的语音，最多支持4个人物，支持多种语音，延迟较低，稳定性高。 Github：

#小红书 #TTS #语音生成 #开源 #FireRedTTS-2

5个月前

bilibili的tts牛逼了，能把原声的情绪给模仿出来。抖音上最近刷到的学英语视频原来就是用这个做的。

#Bilibili #TTS #情绪模仿 #英语视频 #抖音

karminski-牙医

5个月前

微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型 VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型，生成的语音还自带乱七八糟的BGM. 完全达不到宣传的效果. 我的建议是别用啊, 纯纯浪费生命. 另外，官方space的代码是使用CPU推理的，可以修改为GPU推理，照着我这个改就行了，我用了一个24G显存的NVIDIA L4，实测大概使用10G左右显存。生成速度基本是一秒一个字. 开 flash_attention 会快很多. 模型地址:

#微软 #VibeVoice-1.5B #TTS #语音合成-差评 #L4 GPU推理

6个月前

说一个最近的观点：大厂的 asr 和 tts 可能真做不到中厂以及小厂，大厂的合规成本太高了。

#大厂 #ASR #TTS #合规成本 #小厂

6个月前

FlowSpeech 是创作者的 AI 嘴替👄 它有点像是口语版的沉浸式翻译，功能简单，又无处不在它很符合TTS发展的趋势：智能化、场景化、口语化但无论多么智能的技术，最终一定是落脚于用户的实际场景我的朋友 Rico 有三猫，三分钟把 FlowSpeech 的玩法讲得明明白白，一看就懂

#FlowSpeech #AI #TTS #智能化 #口语化

6个月前

这个 TTS 效果真的是很赞啊前段时间在密集调研各种 TTS，大家推荐了很多，使用了一圈下来，基本都是情绪平平，没有什么感情波动，生硬机械，停顿和呼吸不自然，句尾发音总像「提前收尾」一样直到最近推发现的 #FlowSpeech，一个说话有人味儿的 TTS，效果是真的很赞啊

#FlowSpeech #TTS #语音合成 #人味儿 #效果赞

6个月前

今天我们的新产品 FlowSpeech 正式发布 FlowSpeech 是全球第一个书面语转口语的 TTS 可以读网页，可以念小说，可以讲PPT，还能翻译外语。它是你的 AI 嘴替，随时替你说话。这听起来非常不炸裂，但它却是基于我们真实的用户的真实痛点所做的有用的小产品。为什么在行业都在吹概念，追模型，卷 Agent 的时候，我们选择花一点时间做一个这样的小产品呢？作为 AI 应用公司，我们当然希望自己成为天空中的独角兽。但做产品的本质，是帮助一个个真实的人。 FlowSpeech 的需求来自一位80岁的美国老人，这是他的故事。👇

#FlowSpeech #TTS #AI嘴替 #书面语转口语 #用户痛点

6个月前

Azure 的 asr 和 tts 是提供SDK 最全的，比如基本的采集和播放都已经支持了，想问一下推友，你们在选asr和tts的供应商的时候一个好用的SDK在决策中占多大的比重？

#Azure #ASR #TTS #SDK #供应商选择

karminski-牙医

7个月前

发现了个开源多邻国！——wordpecker-app 这个项目不但有背单词功能，而且最重要的是它使用TTS大模型，做了个语音 Agent, 你可以与 LLM 导师就你的词汇进行实际对话。练习发音，提问，并通过自然语言获得即时反馈！地址：

#开源 #多邻国 #语音Agent #TTS #LLM

7个月前

发一下这两天超火的TTS🔥：IndexTTS2，比IndexTTS提升了很多，在音色模仿、情绪表达上很到位用来做音视频配音、搞笑视频没问题了核心在于它能精确控制语音时长的同时，还能符合提示的情感特征在词错误率、说话人相似度、情感保真度上优于现有TTS 跟IndexTTS一样，代码后续会开源 #TTS #IndexTTS2

#TTS #IndexTTS2 #音色模仿 #情绪表达 #开源

8个月前

网络延迟已经超过推理延迟，对于在构造realtime agent的公司来说要及早构建自己asr/llm/tts的闭环，只有在需要强推理的情况下才调用外部大模型。

#网络延迟 #实时代理 #ASR #LLM #TTS #闭环 #推理延迟 #大模型

8个月前

想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了： Realtime API = ASR + TTS + 意图识别小模型。更多的是作为语音交互Agent的接入层。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#OpenAI #Realtime API #Gemini Live API #ASR #TTS #语音交互 #意图识别 #AI

8个月前

据说这个生产级开源 TTS 模型 Chatterbox 非常屌，在 GitHub 上线仅 12 小时就收获 600+ Star，我不玩音频，转需： Github 试听

#Chatterbox #开源 #GitHub #TTS #音频

9个月前

Gemini 放出来了一次性合成多个人的对话的TTS，复现NotebookLM 的多人播客效果的门槛也没了。

#Gemini #TTS #NotebookLM #多人播客 #合成对话

9个月前

好消息是：gemini live api 支持中文了坏消息是：中文tts效果基本没法听

#gemini live #API #中文支持 #TTS #语音合成

9个月前

昨天大半夜，蝗虫群友在讨论各种免费TTS解决方案。讨论还挺干的，分享下。 1. 一个实战派群友推荐：GPT-SoVITS，主要比较稳定 2. 另一个群友经验：开始用 GPT-SoVITS，后面用阿里开源的CosyVoice，又换F5，又换了 Index 还有群友补充：文本转语音，还是火山引擎好，声音自然，有感情，并且免费。

#TTS #免费解决方案 #技术交流

10个月前

阿里开源的Cosyvoice2 TTS质量真不错。 Mac M3 24G本地就能运行，0.5b版本就够用，也比较快。外语支持英文、日文、韩文。汉语支持普通话、四川话、南京话、天津话等各地方言。还能通过提示词指定语气、情绪。还能通过特殊标记添加笑声等精细化控制。本地运行，没审查，什么内容都能合成！

#阿里开源 #Cosyvoice2 #TTS #语音合成 #外语支持 #多地方言 #情绪控制 #本地运行 #无审查

10个月前

太棒了，实现 OpenAI TTS 自由。 TTSFM 是一个逆向工程的 API 服务器，镜像了 OpenAI 的 TTS 服务，提供了兼容的文本转语音接口，支持多种语音选项。试用: 项目: 已经在 Open WebUl 用上啦，当然还是自部署方便点。

#OpenAI #TTS #TTSFM #API服务器 #文本转语音 #逆向工程 #多种语音选项 #自部署

1年前

AI Video Starting Kit：AI时代的视频编辑器 fal开源的网页应用，整合了图片、视频、TTS、音乐的各种AI API，然后在网页里可以生成+编辑。功能目前还比较简陋。 Github：限时在线体验，可以免费使用可灵1.5和海螺视频模型、Flux Ultra图片模型：

#AI #视频编辑 #开源 #网页版应用 #GitHub #在线体验 #可灵1.5 #海螺视频模型 #Flux Ultra #TTS #音乐

1年前

🪶 挖到宝了，TTS 悄咪咪学会了讲骚话。这个轻便的 KokoroTTS 可能是市面上唯一能直出 ASMR 效果的？？？音色毫无廉价感，在 Mac 上也能轻松驾驭。（我..……我有个朋友，有个邪恶的想法…… 用 Cursor 把图文音揉成一个小示例看看，模型链接和音色 ID 我放在 1 楼 ⬇️

#TTS #KokoroTTS #ASMR #音色 #Mac #Cursor