宝玉

宝玉

0 关注者

11个月前

《简单有效的将音频转成各式良好对话文本的方案》

#音频转文本 #转录技术 #语音识别 #文本转换方案

相关新闻

placeholder

Leo Xiang

1个月前

在国内访问 11labs 的 asr 延迟确实很优秀,尾包延迟只有 300ms,支持语种也很多,11labs 估计能在 asr 领域复刻他们在 tts 领域的优势。

placeholder

Feiteng

1个月前

和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历

placeholder

Baye

1个月前

慢慢的我也喜欢语音输入了,打字太慢了。准备把 OpenCat 和 Miley 里的语音识别提取出来一个作为系统级的服务。

placeholder

Tw93

2个月前

发现一个开源的视频字幕编辑器 Subtitle Edit,包括 创建/调整/同步/翻译字幕行,直观同步/调整字幕开始/结束位置和速度,通过 Whisper 或 Vosk/Kaldi 的音频转文本,以及自动翻译等功能,功能非常丰富。

placeholder

karminski-牙医

4个月前

阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:

© 2025 news.news. All rights reserved. 0.02839 秒. v1.0.46
我的评论