时政

财经

科技

#语音合成

2025-05-23 21:02:15

好消息是：gemini live api 支持中文了坏消息是：中文tts效果基本没法听

#API #中文支持 #TTS

2025-04-03 14:48:44

阿里开源的Cosyvoice2 TTS质量真不错。 Mac M3 24G本地就能运行，0.5b版本就够用，也比较快。外语支持英文、日文、韩文。汉语支持普通话、四川话、南京话、天津话等各地方言。还能通过提示词指定语气、情绪。还能通过特殊标记添加笑声等精细化控制。本地运行，没审查，什么内容都能合成！

#阿里开源 #Cosyvoice2 #TTS

2025-03-01 17:39:18

兄弟们，这个全新的语音模型很厉害已经无法分辨了 Sesame： “跨越语音“恐怖谷” ，像真人说话一样的语音模型当人工合成的语音接近真实人声但仍然存在微小差异时，人类会感到奇怪或不适，这就是所谓的“恐怖谷效应”。 Sesame 公司展示了其最新的语音合成模型CSM，它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。

#语音模型 #恐怖谷效应 #语音合成

2025-02-28 01:51:06

PM学编程第7天：用扣子做个听故事学英语学习小工具看到小互提到扣子刚上线了Deepseek-V3 和R1，还有豆包的 function calling版。好奇推理模型加持，应用搭建速度是否会提升。发现扣子还挺好玩的，当然，过程也遇到不少坑。 1. 语音合成插件太多，推荐“英语文本转语音”插件。 2. 为用户体验，设计“故事播放”卡片，绑定了工作流。（图片和音频地址URL别用测试生成

#编程学习 #英语学习 #人工智能

2025-01-25 17:01:58

我去这个语音克隆模型有点牛P 哈哈哈使用了 250,000 小时的中英双语语音数据训练只需15秒的声音就能完美克隆声音，保持音色和情感 Llasa-3B 可以通过输入一个带有情感特征的语音提示（Prompt），在生成目标语音时保留提示语音中的情感特征。基于 LLaMA 语言模型（ 1B、3B 和 8B 参数规模），通过整合 XCodec2 的语音 token 提供语音生成功能。
#语音克隆 #Llasa-3B #情感特征

karminski-牙医

2025-01-14 01:30:01

kotoro-TTS 荣登 TTS Arena 排行榜第一名，录了个视频大家可以看下它中文的语音合成效果。值得一提的是，这个模型只有 82M，树莓派都能跑。而且是 MIT 协议的。排行榜地址：在线测试地址：
#kotoro-TTS #语音合成 #中文

没有更多了 🤐