时政
财经
科技
登录
#语音合成
关注
Leo Xiang
1个月前
好消息是:gemini live api 支持中文了 坏消息是: 中文tts效果基本没法听
#gemini live
#API
#中文支持
#TTS
#语音合成
分享
评论 0
0
向阳乔木
2个月前
阿里开源的Cosyvoice2 TTS质量真不错。 Mac M3 24G本地就能运行,0.5b版本就够用,也比较快。 外语支持英文、日文、韩文。 汉语支持普通话、四川话、南京话、天津话等各地方言。 还能通过提示词指定语气、情绪。还能通过特殊标记添加笑声等精细化控制。 本地运行,没审查,什么内容都能合成!
#阿里开源
#Cosyvoice2
#TTS
#语音合成
#外语支持
#多地方言
#情绪控制
#本地运行
#无审查
分享
评论 0
0
小互
4个月前
兄弟们,这个全新的语音模型很厉害 已经无法分辨了 Sesame: “跨越语音“恐怖谷” ,像真人说话一样的语音模型 当人工合成的语音接近真实人声但仍然存在微小差异时,人类会感到奇怪或不适,这就是所谓的“恐怖谷效应”。 Sesame 公司展示了其最新的语音合成模型CSM, 它在个性、记忆、表达能力和恰当性上表现出了非常惊人的能力。
#语音模型
#恐怖谷效应
#语音合成
#Sesame公司
#CSM
分享
评论 0
0
向阳乔木
4个月前
PM学编程第7天:用扣子做个听故事学英语学习小工具 看到小互提到扣子刚上线了Deepseek-V3 和R1,还有豆包的 function calling版。 好奇推理模型加持,应用搭建速度是否会提升。 发现扣子还挺好玩的,当然,过程也遇到不少坑。 1. 语音合成插件太多,推荐“英语文本转语音”插件。 2. 为用户体验,设计“故事播放”卡片,绑定了工作流。(图片和音频地址URL别用测试生成的,否则审核不通过) 3. 第一次用扣子的数据库,默认有4不能修改的字段,上传数据只需新增字段csv文件。 4. 配置工作流,比想象中简单,让大模型连接原始数据,写Prompt生成要返回的字段变量。 有人感兴趣的话,我抽空写个详细教程。
#编程学习
#英语学习
#人工智能
#工具开发
#语音合成
#模型应用
#用户体验
分享
评论 0
0
小互
5个月前
我去 这个语音克隆模型有点牛P 哈哈哈 使用了 250,000 小时的中英双语语音数据训练 只需15秒的声音就能完美克隆声音,保持音色和情感 Llasa-3B 可以通过输入一个带有情感特征的语音提示(Prompt),在生成目标语音时保留提示语音中的情感特征。 基于 LLaMA 语言模型( 1B、3B 和 8B 参数规模),通过整合 XCodec2 的语音 token 提供语音生成功能。
#语音克隆
#Llasa-3B
#情感特征
#语言模型
#语音合成
分享
评论 0
0
karminski-牙医
5个月前
kotoro-TTS 荣登 TTS Arena 排行榜第一名,录了个视频大家可以看下它中文的语音合成效果。 值得一提的是,这个模型只有 82M,树莓派都能跑。而且是 MIT 协议的。 排行榜地址: 在线测试地址:
#kotoro-TTS
#TTS Arena
#语音合成
#中文
#模型
#树莓派
#MIT 协议
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞