Gorden Sun
0 关注者
sitin
2天前
IndexTTS2 是 Bilibili 提出的一款新一代零样本语音合成(TTS)模型,其核心目标是实现高精度时长控制与高度自然的情绪表达,同时保持音色一致性,适用于视频配音、内容创作和多模态合成等场景。 核心突破与功能亮点 1.精准时长控制:可直接指定语音时长(精确到毫秒),确保与视频口型严格对齐。支持不设限的“自然时长”模式,适应不同场景。 2.音色与情感完全分离(核心创新):通过对抗训练
Jesse Lau 遁一子
3天前
gemini gem可以打开deep think
Geek
ModelScope魔搭 Qwen/Qwen3-Next-80B-A3B-Instruct 已经上线了,这是用它生成的天气卡片。
6天前
B站的IndexTTS2开源了,有没有已经部署的,看看效果是不是像Demo那样牛逼? Github: 模型:
1周前
ElevenLabs 正式发布了其新一代 AI 音效生成工具——SFX 模型 v2,并详细介绍了该模型的重大升级、广泛的应用场景以及配套的新功能。 1.新版本相比之前有显著提升,重点是: 更高质量的音效生成。 ·无缝循环:生成的音效可以完美循环播放,没有断续感。 ·更长时长:支持生成最长30秒的音效。 ·更高采样率:达到48kHz的专业音频标准。 2.广泛的应用场景:文章花了大量篇幅说明这个工
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议
475
在新德里举行的活动中,OpenAI宣布即将推出o3-Pro模型,取代现有的o1-Pro模型,旨在提升ChatGPT的推理能力和功能。同时,OpenAI还发布了ChatGPT高级语音模式的升级,新增了自然停顿、重音处理、同理心表达和双向自动翻译等功能。这一更新已向所有付费用户开放,预计将进一步增强ChatGPT的用户体验和市场竞争力。随着用户基数的不断扩大,OpenAI的这些新功能引发了广泛关注,尤其是在人工智能语音交互领域的应用潜力。