时政
财经
科技
虚拟货币
其他
登录
Feiteng
关注
统计数据
8
文章
0
粉丝
0
获赞
45
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Feiteng
1天前
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历+复现 Hinton Dropout 论文写就硕士毕业论文 好多年后一公司产品经理离职时来跟我说:你知道知网上你硕士论文引用很高吗? 真没看过 14 年毕业,进入一家做智能音箱的公司,也有百万用户的APP,比Amazon Echo推出时间都早,无奈技术团队太菜,一套 ASR, CTO和技术骨干搞了两年也没搞出来,技术路线落后且错误;我拿kaldi 一两周就训练出能用模型,试图扭转技术路线没有成功,最后他们妥协说,我能用 java 实现一套 ASR 识别系统就采用我的方案;随后一个月学习java 用 java 写了一套 ASR 运行时,也摸透了 kaldi decoding DNN + WFST 这一套原理; 没有掰正技术路线的时候,就下定决心离开了,当时就一个想法:得去人才密度高的地方。 后面就聊了一家公司直接加入了,合伙人都是学历履历比较优秀的,电话面试官有一位是 Google 总部语音科学家背景,深入聊了 WFST,ASR 解码原理等,这是碰到行家了;约了 on site,CTO 还考八股面试题,没刷过题只给出了思路,CEO 聊的就比较宏大了; 进入后,先做了个裁剪神经网络的活;合伙人给了一个任务,提高公司核心算法的准确率,为此他们在过去一年准备了十几个benchmark,知乎还有一个热帖讨论猜测这个核心算法;最后否定了一位资深同事和合伙人的方案,提出了自己的方案,一个人执行落地上线推给千万用户,在十几个benchmark上准确率提高到了 95%,优化神经网络计算速度40倍实现在手机端离线计算,就是玩半小时就发烫;17年交接手上语音评测、语音识别工作,新开语音合成技术方向,18-20年合成水平显著高于市场商业API,公司开all hands 就会拿来一波图灵测试;公司每年hackathon必拿奖;三年后公司纽交所上市; 这些年错过的机会: 16 年看过 比特币 18年被邀请去字节组建团队,当时公司很快上市,没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊,过了个春节 23年初写了个开源项目 valle,后来跟大学生们面基,他们说 这是他们的语音生成大模型入门代码,有些已是头部厂商核心研发力量;minimax 同学也说无它就增加了训练数据;这个项目带来过百万收入
#数学转行
#语音识别
#深度学习
#kaldi
#技术突破
#职场发展
#AI
#成功案例
分享
评论 0
0
Feiteng
2周前
Soul 开源了一款支持多人对话的播客生成模型,训练数据 130万小时,支持中文英文以及多个中文方言和副语言(笑、叹气等) 代码: 模型HF:
#soul
#播客生成模型
#多人对话
#中文英文
#开源
分享
评论 0
0
Feiteng
3周前
#LattifAI - 由尖端 AI 驱动的音频字幕同步工具 🚀 免费使用 ✨ 核心功能: • 精确的强制对齐引擎(支持任何音频格式) • 基于标点符号语义的智能分句 • 支持 SRT、VTT、ASS 和 TXT 格式 • 针对 CPU、GPU (CUDA) 和苹果芯片 (MPS) 优化 💻 🤗 #AI #音频处理 #字幕 #强制对齐
#LattifAI
#AI音频字幕工具
#免费使用
#音频处理
#强制对齐
分享
评论 0
0
Feiteng
1个月前
赶工音频文本对齐 python sdk,争取今天赶完发出来
#赶工
#音频文本对齐
#python sdk
#今天
#完成
分享
评论 0
0
Feiteng
1个月前
Gemini 2.5 Pro 音频转文字准确率超高,时间轴的准确性就只有个大概了。
Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 655 条信息
#Gemini 2.5 Pro
#音频转文字
#准确率高
#时间轴
#技术
分享
评论 0
0
Feiteng
1个月前
One Framework, Two Modes 🎬 万动画(Wan-Animate)是角色动画的变革者!它在一个框架内统一了“动画”(通过参考视频将静止图像变为动态)和“替换”(在视频中用新身份替换角色)功能。高保真运动、表情以及环境感知照明!即将开源。项目地址: #AIArt #扩散模型(DiffusionModels)
阿里开源Wan-Animate,角色动画与替换技术引发热议· 10 条信息
#万动画
#角色动画
#AIArt
#扩散模型
#开源
分享
评论 0
0
Feiteng
3个月前
Wan2.2 开放了 27B参数MoE激活14B 和 5B 两个模型版本,5B 版本既有效果又对24G显存消费端显卡友好! hf: github:
Google Gemini 2.5发布引发AI模型性价比热议· 280 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 655 条信息
#wan2.2
#MoE
#27B参数
#14B模型
#5B模型
#24G显存
分享
评论 0
0
Feiteng
4个月前
Gemini 2.5 技术报告:原生的 Audio Input Output Streaming 能力
#Gemini
#技术报告
#Audio Input Output
#流媒体
#音频输入输出
#技术能力
分享
评论 0
0
1
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞