时政
财经
科技
虚拟货币
其他
登录
#TTS
关注
Gorden Sun
5天前
即梦4.0,一键生成儿童故事绘本,支持中文故事,效果非常好,而且免费。 唯一的缺憾是目前不会生成音频,顺手加上TTS,其他家就没必要做了。
#儿童故事
#绘本
#中文故事
#免费
#TTS
分享
评论 0
0
Gorden Sun
2周前
FireRedTTS-2:小红书开源的TTS 一次性能生成3分钟长的语音,最多支持4个人物,支持多种语音,延迟较低,稳定性高。 Github:
#小红书
#TTS
#语音生成
#开源
#FireRedTTS-2
分享
评论 0
0
Olivert
3周前
bilibili的tts牛逼了,能把原声的情绪给模仿出来。抖音上最近刷到的学英语视频原来就是用这个做的。
#Bilibili
#TTS
#情绪模仿
#英语视频
#抖音
分享
评论 0
0
karminski-牙医
1个月前
微软这浓眉大眼的怎么还学 Llama4? 给大家带来微软刚出的TTS(文本转语音)大模型 VibeVoice-1.5B 实测! 这个模型最大的突破是同时支持4个说话人按顺序说话. 您猜怎么着? 真垃圾啊... 不多说了直接看视频效果. 说实话这个结果已经不是失望是绝望了... 问题包括说话者切换会导致声音完全变了一个人, 语音合成效果太差, 有幻觉, 生成会跳跃. 甚至选了非BGM的模型, 生成的语音还自带乱七八糟的BGM. 完全达不到宣传的效果. 我的建议是别用啊, 纯纯浪费生命. 另外,官方space的代码是使用CPU推理的,可以修改为GPU推理,照着我这个改就行了, 我用了一个24G显存的NVIDIA L4,实测大概使用10G左右显存。生成速度基本是一秒一个字. 开 flash_attention 会快很多. 模型地址:
#微软
#VibeVoice-1.5B
#TTS
#语音合成-差评
#L4 GPU推理
分享
评论 0
0
Leo Xiang
1个月前
说一个最近的观点: 大厂的 asr 和 tts 可能真做不到中厂以及小厂,大厂的合规成本太高了。
#大厂
#ASR
#TTS
#合规成本
#小厂
分享
评论 0
0
orange.ai
1个月前
FlowSpeech 是创作者的 AI 嘴替👄 它有点像是口语版的沉浸式翻译,功能简单,又无处不在 它很符合TTS发展的趋势:智能化、场景化、口语化 但无论多么智能的技术,最终一定是落脚于用户的实际场景 我的朋友 Rico 有三猫,三分钟把 FlowSpeech 的玩法讲得明明白白,一看就懂
#FlowSpeech
#AI
#TTS
#智能化
#口语化
分享
评论 0
0
AppSail.dev
1个月前
这个 TTS 效果真的是很赞啊 前段时间在密集调研各种 TTS,大家推荐了很多,使用了一圈下来,基本都是 情绪平平,没有什么感情波动,生硬机械,停顿和呼吸不自然,句尾发音总像「提前收尾」一样 直到最近推发现的 #FlowSpeech,一个说话有人味儿的 TTS,效果是真的很赞啊
#FlowSpeech
#TTS
#语音合成
#人味儿
#效果赞
分享
评论 0
0
orange.ai
1个月前
今天我们的新产品 FlowSpeech 正式发布 FlowSpeech 是全球第一个书面语转口语的 TTS 可以读网页,可以念小说,可以讲PPT,还能翻译外语。 它是你的 AI 嘴替,随时替你说话。 这听起来非常不炸裂,但它却是基于我们真实的用户的真实痛点所做的有用的小产品。 为什么在行业都在吹概念,追模型,卷 Agent 的时候, 我们选择花一点时间做一个这样的小产品呢? 作为 AI 应用公司,我们当然希望自己成为天空中的独角兽。 但做产品的本质,是帮助一个个真实的人。 FlowSpeech 的需求来自一位80岁的美国老人,这是他的故事。👇
#FlowSpeech
#TTS
#AI嘴替
#书面语转口语
#用户痛点
分享
评论 0
0
Leo Xiang
1个月前
Azure 的 asr 和 tts 是提供SDK 最全的,比如基本的采集和播放都已经支持了,想问一下推友,你们在选asr和tts的供应商的时候一个好用的SDK在决策中占多大的比重?
#Azure
#ASR
#TTS
#SDK
#供应商选择
分享
评论 0
0
karminski-牙医
2个月前
发现了个开源多邻国!——wordpecker-app 这个项目不但有背单词功能,而且最重要的是它使用TTS大模型,做了个语音 Agent, 你可以与 LLM 导师就你的词汇进行实际对话。练习发音,提问,并通过自然语言获得即时反馈! 地址:
#开源
#多邻国
#语音Agent
#TTS
#LLM
分享
评论 0
0
AIGCLINK
2个月前
发一下这两天超火的TTS🔥:IndexTTS2,比IndexTTS提升了很多,在音色模仿、情绪表达上很到位 用来做音视频配音、搞笑视频没问题了 核心在于它能精确控制语音时长的同时,还能符合提示的情感特征 在词错误率、说话人相似度、情感保真度上优于现有TTS 跟IndexTTS一样,代码后续会开源 #TTS #IndexTTS2
#TTS
#IndexTTS2
#音色模仿
#情绪表达
#开源
分享
评论 0
0
Leo Xiang
3个月前
网络延迟已经超过推理延迟,对于在构造realtime agent的公司来说要及早构建自己asr/llm/tts的闭环,只有在需要强推理的情况下才调用外部大模型。
#网络延迟
#实时代理
#ASR
#LLM
#TTS
#闭环
#推理延迟
#大模型
分享
评论 0
0
Leo Xiang
3个月前
想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了: Realtime API = ASR + TTS + 意图识别小模型。 更多的是作为语音交互Agent的接入层。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 525 条信息
#OpenAI
#Realtime API
#Gemini Live API
#ASR
#TTS
#语音交互
#意图识别
#AI
分享
评论 0
0
Geek
4个月前
据说这个生产级开源 TTS 模型 Chatterbox 非常屌,在 GitHub 上线仅 12 小时就收获 600+ Star,我不玩音频,转需: Github 试听
#Chatterbox
#开源
#GitHub
#TTS
#音频
分享
评论 0
0
Leo Xiang
4个月前
Gemini 放出来了一次性合成多个人的对话的TTS,复现NotebookLM 的多人播客效果的门槛也没了。
#Gemini
#TTS
#NotebookLM
#多人播客
#合成对话
分享
评论 0
0
Leo Xiang
4个月前
好消息是:gemini live api 支持中文了 坏消息是: 中文tts效果基本没法听
#gemini live
#API
#中文支持
#TTS
#语音合成
分享
评论 0
0
向阳乔木
4个月前
昨天大半夜,蝗虫群友在讨论各种免费TTS解决方案。 讨论还挺干的,分享下。 1. 一个实战派群友推荐:GPT-SoVITS,主要比较稳定 2. 另一个群友经验:开始用 GPT-SoVITS,后面用阿里开源的CosyVoice,又换F5,又换了 Index 还有群友补充:文本转语音,还是火山引擎好,声音自然,有感情,并且免费。
#TTS
#免费解决方案
#技术交流
分享
评论 0
0
向阳乔木
6个月前
阿里开源的Cosyvoice2 TTS质量真不错。 Mac M3 24G本地就能运行,0.5b版本就够用,也比较快。 外语支持英文、日文、韩文。 汉语支持普通话、四川话、南京话、天津话等各地方言。 还能通过提示词指定语气、情绪。还能通过特殊标记添加笑声等精细化控制。 本地运行,没审查,什么内容都能合成!
#阿里开源
#Cosyvoice2
#TTS
#语音合成
#外语支持
#多地方言
#情绪控制
#本地运行
#无审查
分享
评论 0
0
Geek
6个月前
太棒了,实现 OpenAI TTS 自由。 TTSFM 是一个逆向工程的 API 服务器,镜像了 OpenAI 的 TTS 服务,提供了兼容的文本转语音接口,支持多种语音选项。 试用: 项目: 已经在 Open WebUl 用上啦,当然还是自部署方便点。
#OpenAI
#TTS
#TTSFM
#API服务器
#文本转语音
#逆向工程
#多种语音选项
#自部署
分享
评论 0
0
Gorden Sun
8个月前
AI Video Starting Kit:AI时代的视频编辑器 fal开源的网页应用,整合了图片、视频、TTS、音乐的各种AI API,然后在网页里可以生成+编辑。功能目前还比较简陋。 Github: 限时在线体验,可以免费使用可灵1.5和海螺视频模型、Flux Ultra图片模型:
#AI
#视频编辑
#开源
#网页版应用
#GitHub
#在线体验
#可灵1.5
#海螺视频模型
#Flux Ultra
#TTS
#音乐
分享
评论 0
0
Jerlin
8个月前
🪶 挖到宝了,TTS 悄咪咪学会了讲骚话。 这个轻便的 KokoroTTS 可能是市面上唯一能直出 ASMR 效果的??? 音色毫无廉价感,在 Mac 上也能轻松驾驭。(我..……我有个朋友,有个邪恶的想法…… 用 Cursor 把图文音揉成一个小示例看看,模型链接和音色 ID 我放在 1 楼 ⬇️
#TTS
#KokoroTTS
#ASMR
#音色
#Mac
#Cursor
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞