时政
财经
科技
虚拟货币
其他
登录
#语音识别
关注
Feiteng
1天前
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历+复现 Hinton Dropout 论文写就硕士毕业论文 好多年后一公司产品经理离职时来跟我说:你知道知网上你硕士论文引用很高吗? 真没看过 14 年毕业,进入一家做智能音箱的公司,也有百万用户的APP,比Amazon Echo推出时间都早,无奈技术团队太菜,一套 ASR, CTO和技术骨干搞了两年也没搞出来,技术路线落后且错误;我拿kaldi 一两周就训练出能用模型,试图扭转技术路线没有成功,最后他们妥协说,我能用 java 实现一套 ASR 识别系统就采用我的方案;随后一个月学习java 用 java 写了一套 ASR 运行时,也摸透了 kaldi decoding DNN + WFST 这一套原理; 没有掰正技术路线的时候,就下定决心离开了,当时就一个想法:得去人才密度高的地方。 后面就聊了一家公司直接加入了,合伙人都是学历履历比较优秀的,电话面试官有一位是 Google 总部语音科学家背景,深入聊了 WFST,ASR 解码原理等,这是碰到行家了;约了 on site,CTO 还考八股面试题,没刷过题只给出了思路,CEO 聊的就比较宏大了; 进入后,先做了个裁剪神经网络的活;合伙人给了一个任务,提高公司核心算法的准确率,为此他们在过去一年准备了十几个benchmark,知乎还有一个热帖讨论猜测这个核心算法;最后否定了一位资深同事和合伙人的方案,提出了自己的方案,一个人执行落地上线推给千万用户,在十几个benchmark上准确率提高到了 95%,优化神经网络计算速度40倍实现在手机端离线计算,就是玩半小时就发烫;17年交接手上语音评测、语音识别工作,新开语音合成技术方向,18-20年合成水平显著高于市场商业API,公司开all hands 就会拿来一波图灵测试;公司每年hackathon必拿奖;三年后公司纽交所上市; 这些年错过的机会: 16 年看过 比特币 18年被邀请去字节组建团队,当时公司很快上市,没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊,过了个春节 23年初写了个开源项目 valle,后来跟大学生们面基,他们说 这是他们的语音生成大模型入门代码,有些已是头部厂商核心研发力量;minimax 同学也说无它就增加了训练数据;这个项目带来过百万收入
#数学转行
#语音识别
#深度学习
#kaldi
#技术突破
#职场发展
#AI
#成功案例
分享
评论 0
0
Baye
1周前
慢慢的我也喜欢语音输入了,打字太慢了。准备把 OpenCat 和 Miley 里的语音识别提取出来一个作为系统级的服务。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 656 条信息
#语音输入
#OpenCat
#Miley
#语音识别
#系统级服务
分享
评论 0
0
karminski-牙医
2个月前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 656 条信息
#开源
#音频模型
#Step
#GPT-4o
#语音识别
分享
评论 0
0
dontbesilent
3个月前
微信这个语音识别的按钮救了我的命 应该是把微信输入法的语音识别集成过来了 iOS 系统听写太难用了,又不像安卓可以随意使用第三方输入法听写 现在移动端输出效率大幅提升
#微信
#语音识别
#输入法
#iOS
#移动端
分享
评论 0
0
Shaolei Zhang
4个月前
👏🏻Stream-Omni:一个类GPT-4o的文本-视觉-语音多模态大模型 (1)同时支持文本、视觉、语音输入,生成文本和语音回复。 (2)语音交互过程中,同步生成中间的语音识别、文本回复结果,提供更加全面的多模态交互体验! 📝论文: 🔗代码&Demo:
#多模态大模型
#GPT-4
#文本-视觉-语音统一
#AI交互
#语音识别
#中间生成
分享
评论 0
0
ding.one
4个月前
很多人都慢慢发现用语音代替打字的快捷了,不管是 vibe coding 还是和 AI 对话效率都爆棚,未来的操作系统肯定会把鼠标和键盘更加边缘化的。但目前这个赛道太卷了,我已经尝试过这么多了: Superwhisper: Willow Voice: Aqua Voice: Macwhisper: WisprFlow: Harker: VoiceInk: Spokenly: VoiceType: TalkTastic:
#语音识别
#人工智能
#操作系统
#科技趋势
#人机交互
分享
评论 0
0
sitin
5个月前
OpenAI高级语音功能大升级!对话像真人般自然流畅,语调有起伏、节奏更真实,还自带情绪表达,从同理心到讽刺全都拿捏。 语音翻译更是厉害,多轮对话无需重复指令,旅行、商务、学习全搞定。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 656 条信息
#OpenAI
#语音技术
#自然语言处理
#语音识别
#情感表达
#语音翻译
#人工智能
#技术升级
分享
评论 0
0
小互
5个月前
借助实时分析语音节奏与停顿信号(如“um”“ah”),AI 可判断何时等待、何时回应,避免打断用户或不自然的等待,使对话更像真实人类交流。 几乎没有延迟... 详细介绍:
#AI对话
#语音识别
#人机互动
分享
评论 0
0
小互
5个月前
ElevenLabs 发布其对话语音助手: Conversational AI 2.0 相较于上一代有了巨大飞跃 亮点功能: 说话不尴尬了:它能听懂你什么时候停顿、什么时候在思考,不会中途打断你说话。 多语言切换很顺滑:你说中文,它说中文;你说西班牙语,它也能自动切换。 回答更“懂行”:它可以从你公司的知识库里直接找资料来回答你,不胡说。 批量打电话不求人:几百几千个客户,系统可以一次性给他们打电话发通知。 一个模型管两种互动方式:不用分开发文字和语音版本,省人力。
#elevenlabs
#对话语音助手
#Conversational AI
#多语言
#AI技术
#客户服务
#语音识别
分享
评论 0
0
小径残雪
6个月前
现在很多人用“听书”、“听帖子”来替代阅读。 但是有一个问题可能这些人里面大部分不知道:听读软件如果发现一句话里有敏感词,会把这句话略过去不读。
#听书
#听帖子
#语音识别
#敏感词过滤
#阅读替代
分享
评论 0
0
Gorden Sun
9个月前
FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github: 模型:
#小红书
#语音识别
#开源模型
#方言识别
#英文识别
#多模态LLM
#中文识别
#GitHub
分享
评论 0
0
宝玉
10个月前
《简单有效的将音频转成各式良好对话文本的方案》
#音频转文本
#转录技术
#语音识别
#文本转换方案
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞