宝玉
0 关注者
Feiteng
2天前
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历
Baye
1周前
慢慢的我也喜欢语音输入了,打字太慢了。准备把 OpenCat 和 Miley 里的语音识别提取出来一个作为系统级的服务。
Tw93
1个月前
发现一个开源的视频字幕编辑器 Subtitle Edit,包括 创建/调整/同步/翻译字幕行,直观同步/调整字幕开始/结束位置和速度,通过 Whisper 或 Vosk/Kaldi 的音频转文本,以及自动翻译等功能,功能非常丰富。
karminski-牙医
2个月前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:
dontbesilent
3个月前
微信这个语音识别的按钮救了我的命 应该是把微信输入法的语音识别集成过来了 iOS 系统听写太难用了,又不像安卓可以随意使用第三方输入法听写 现在移动端输出效率大幅提升