宝玉
0 关注者
Leo Xiang
1个月前
在国内访问 11labs 的 asr 延迟确实很优秀,尾包延迟只有 300ms,支持语种也很多,11labs 估计能在 asr 领域复刻他们在 tts 领域的优势。
Feiteng
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历
Baye
慢慢的我也喜欢语音输入了,打字太慢了。准备把 OpenCat 和 Miley 里的语音识别提取出来一个作为系统级的服务。
Tw93
2个月前
发现一个开源的视频字幕编辑器 Subtitle Edit,包括 创建/调整/同步/翻译字幕行,直观同步/调整字幕开始/结束位置和速度,通过 Whisper 或 Vosk/Kaldi 的音频转文本,以及自动翻译等功能,功能非常丰富。
karminski-牙医
4个月前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址: