时政
财经
科技
虚拟货币
其他
登录
#kaldi
关注
Feiteng
15小时前
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历+复现 Hinton Dropout 论文写就硕士毕业论文 好多年后一公司产品经理离职时来跟我说:你知道知网上你硕士论文引用很高吗? 真没看过 14 年毕业,进入一家做智能音箱的公司,也有百万用户的APP,比Amazon Echo推出时间都早,无奈技术团队太菜,一套 ASR, CTO和技术骨干搞了两年也没搞出来,技术路线落后且错误;我拿kaldi 一两周就训练出能用模型,试图扭转技术路线没有成功,最后他们妥协说,我能用 java 实现一套 ASR 识别系统就采用我的方案;随后一个月学习java 用 java 写了一套 ASR 运行时,也摸透了 kaldi decoding DNN + WFST 这一套原理; 没有掰正技术路线的时候,就下定决心离开了,当时就一个想法:得去人才密度高的地方。 后面就聊了一家公司直接加入了,合伙人都是学历履历比较优秀的,电话面试官有一位是 Google 总部语音科学家背景,深入聊了 WFST,ASR 解码原理等,这是碰到行家了;约了 on site,CTO 还考八股面试题,没刷过题只给出了思路,CEO 聊的就比较宏大了; 进入后,先做了个裁剪神经网络的活;合伙人给了一个任务,提高公司核心算法的准确率,为此他们在过去一年准备了十几个benchmark,知乎还有一个热帖讨论猜测这个核心算法;最后否定了一位资深同事和合伙人的方案,提出了自己的方案,一个人执行落地上线推给千万用户,在十几个benchmark上准确率提高到了 95%,优化神经网络计算速度40倍实现在手机端离线计算,就是玩半小时就发烫;17年交接手上语音评测、语音识别工作,新开语音合成技术方向,18-20年合成水平显著高于市场商业API,公司开all hands 就会拿来一波图灵测试;公司每年hackathon必拿奖;三年后公司纽交所上市; 这些年错过的机会: 16 年看过 比特币 18年被邀请去字节组建团队,当时公司很快上市,没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊,过了个春节 23年初写了个开源项目 valle,后来跟大学生们面基,他们说 这是他们的语音生成大模型入门代码,有些已是头部厂商核心研发力量;minimax 同学也说无它就增加了训练数据;这个项目带来过百万收入
#数学转行
#语音识别
#深度学习
#kaldi
#技术突破
#职场发展
#AI
#成功案例
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞