#语音识别

3天前

字节给苹果笔记本 MacOS，开放内测的豆包输入法，太厉害了。安装后，只需要在输入栏，双击 Option 键，就能呼出语音识别。需要补充的是，这条推文也是我用嘴说出来的。等同于，我可以带着电脑，线下去录制语音转文字。推上有不少人贴了获取方式。

#字节跳动 #苹果笔记本 #豆包输入法 #语音识别 #电脑应用

5天前

Cohere开源语音识别模型Transcribe 2B参数，本地能跑，可能是目前的开源最佳，但是不确定中文识别的效果如何。模型：

#Cohere #语音识别 #Transcribe #开源模型 #中文识别

6天前

Koe v1.0.7 发布了！这个版本加入了实时语音识别文字预览，说话的时候可以直接在屏幕底部看到识别内容。同时新增了设置引导，对于普通用户不用再手动编辑 YAML 配置文件了。

#Koe #语音识别 #实时预览 #软件更新

seekinganythingbutalpha

1周前

我不太明白为什么字节的语音识别(STT)可以做到价格最低，但是文字转语音(TTS)却是大厂中价格最高的。难道是因为方言采风和合成的前期成本比较高？图中价格均为今日询价计算得出，不保证时效性和正确性。阿里价格仅为参考，不太适合一般开发者使用。

#字节跳动 #语音识别 #文字转语音 #价格 #语音技术 #方言采风

Larry & Leo & Lucky 🍀

1周前

Terminal 下, 需要支持按住 SPC 语音识别, 从 xfce4 升级到了 plasma, 整个过程让 Claude Code 帮我搞, 所有配置基本全部无缝迁移. 我都不敢去想, 之前这 20 年, 自己用 linux 都是过的什么样的日子....

#终端 #语音识别 #xfce4 #Plasma #Claude Code #Linux

 快乐永远 

1周前

冷知识：腾讯最早在腾讯云的中英文混合识别接口（16k_zh_en）中支持 “潮汕话” 的语音识别转文字；但在中文方言识别接口（16k_zh_large) 至今未能支持潮汕话 ….而微信输入法和微信的语音输入，同样还没有支持….

#腾讯 #潮汕话 #语音识别 #腾讯云 #微信输入法

偶像派作手

2周前

Typeless 这个语音输入法太好用了！全程用语音输入，整个编辑过程不需要动到一次键盘，它会自动帮你： 1. 分段分行 2. 自动排版你在讲到一些重点、要点的时候，它还会主动帮你分出 1、2、3，非常智能。

#Typeless #语音输入法 #自动排版 #语音识别 #输入法 #智能软件

2周前

语音转文字那家大模型做得好？

#语音转文字 #大模型 #语音识别 #语音技术

吕立青_JimmyLv 2𐃏26

2周前

做了一个无限流式语音输入识别 todo，超好用！哈哈哈一直开着录音，然后 VAD 触发识别，一边陪娃在玩，一边 Vibe Coding（也是语音想到啥就说啥，直接捕获我要做的事情，而且给足上下文，帮我自动放进对应的项目，以及基于 OKR 设定优先级和时间日期等等。简直完美契合我在家这个场景啊！😂

#语音识别 #Todo应用 #无限流 #VAD触发 #Vibe Coding #OKR #优先级设置 #项目管理 #效率工具

4个月前

在国内访问 11labs 的 asr 延迟确实很优秀，尾包延迟只有 300ms，支持语种也很多，11labs 估计能在 asr 领域复刻他们在 tts 领域的优势。

#11Labs #ASR #语音识别 #低延迟 #多语种支持

4个月前

和自身经历有点像，mini版本科数学专业没怎么学过编程研究生也是数学老板比较牛，实验室机器从2010年就高配NV GPU，硕士两年 2012-2013 猛学机器学习、深度学习，练习 coding 实习offer mentor考完、老板还能面SVD分解，mentor和老板二人拒了他们上交学弟把位置给了我，接触开源项目 kaldi、把CNN成功运用到语音识别系统上，词错率降低10%，这段经历+复现 Hinton Dropout 论文写就硕士毕业论文好多年后一公司产品经理离职时来跟我说：你知道知网上你硕士论文引用很高吗？真没看过 14 年毕业，进入一家做智能音箱的公司，也有百万用户的APP，比Amazon Echo推出时间都早，无奈技术团队太菜，一套 ASR, CTO和技术骨干搞了两年也没搞出来，技术路线落后且错误；我拿kaldi 一两周就训练出能用模型，试图扭转技术路线没有成功，最后他们妥协说，我能用 java 实现一套 ASR 识别系统就采用我的方案；随后一个月学习java 用 java 写了一套 ASR 运行时，也摸透了 kaldi decoding DNN + WFST 这一套原理；没有掰正技术路线的时候，就下定决心离开了，当时就一个想法：得去人才密度高的地方。后面就聊了一家公司直接加入了，合伙人都是学历履历比较优秀的，电话面试官有一位是 Google 总部语音科学家背景，深入聊了 WFST，ASR 解码原理等，这是碰到行家了；约了 on site，CTO 还考八股面试题，没刷过题只给出了思路，CEO 聊的就比较宏大了；进入后，先做了个裁剪神经网络的活；合伙人给了一个任务，提高公司核心算法的准确率，为此他们在过去一年准备了十几个benchmark，知乎还有一个热帖讨论猜测这个核心算法；最后否定了一位资深同事和合伙人的方案，提出了自己的方案，一个人执行落地上线推给千万用户，在十几个benchmark上准确率提高到了 95%，优化神经网络计算速度40倍实现在手机端离线计算，就是玩半小时就发烫；17年交接手上语音评测、语音识别工作，新开语音合成技术方向，18-20年合成水平显著高于市场商业API，公司开all hands 就会拿来一波图灵测试；公司每年hackathon必拿奖；三年后公司纽交所上市；这些年错过的机会： 16 年看过比特币 18年被邀请去字节组建团队，当时公司很快上市，没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊，过了个春节 23年初写了个开源项目 valle，后来跟大学生们面基，他们说这是他们的语音生成大模型入门代码，有些已是头部厂商核心研发力量；minimax 同学也说无它就增加了训练数据；这个项目带来过百万收入

#数学转行 #语音识别 #深度学习 #kaldi #技术突破 #职场发展 #AI #成功案例

4个月前

慢慢的我也喜欢语音输入了，打字太慢了。准备把 OpenCat 和 Miley 里的语音识别提取出来一个作为系统级的服务。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#语音输入 #OpenCat #Miley #语音识别 #系统级服务

karminski-牙医

7个月前

阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频，输出也是音频，可以实现对话)。帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的，对话能力差一点，稍后为大家带来评测！模型地址：

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#开源 #音频模型 #Step #GPT-4o #语音识别

8个月前

微信这个语音识别的按钮救了我的命应该是把微信输入法的语音识别集成过来了 iOS 系统听写太难用了，又不像安卓可以随意使用第三方输入法听写现在移动端输出效率大幅提升

#微信 #语音识别 #输入法 #iOS #移动端

9个月前

👏🏻Stream-Omni：一个类GPT-4o的文本-视觉-语音多模态大模型（1）同时支持文本、视觉、语音输入，生成文本和语音回复。（2）语音交互过程中，同步生成中间的语音识别、文本回复结果，提供更加全面的多模态交互体验！ 📝论文： 🔗代码&Demo：

#多模态大模型 #GPT-4 #文本-视觉-语音统一 #AI交互 #语音识别 #中间生成

9个月前

很多人都慢慢发现用语音代替打字的快捷了，不管是 vibe coding 还是和 AI 对话效率都爆棚，未来的操作系统肯定会把鼠标和键盘更加边缘化的。但目前这个赛道太卷了，我已经尝试过这么多了： Superwhisper: Willow Voice: Aqua Voice: Macwhisper: WisprFlow: Harker: VoiceInk: Spokenly: VoiceType: TalkTastic:

#语音识别 #人工智能 #操作系统 #科技趋势 #人机交互

9个月前

OpenAI高级语音功能大升级！对话像真人般自然流畅，语调有起伏、节奏更真实，还自带情绪表达，从同理心到讽刺全都拿捏。语音翻译更是厉害，多轮对话无需重复指令，旅行、商务、学习全搞定。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#OpenAI #语音技术 #自然语言处理 #语音识别 #情感表达 #语音翻译 #人工智能 #技术升级

10个月前

借助实时分析语音节奏与停顿信号（如“um”“ah”），AI 可判断何时等待、何时回应，避免打断用户或不自然的等待，使对话更像真实人类交流。几乎没有延迟... 详细介绍：

#AI对话 #语音识别 #人机互动

10个月前

ElevenLabs 发布其对话语音助手： Conversational AI 2.0 相较于上一代有了巨大飞跃亮点功能：说话不尴尬了：它能听懂你什么时候停顿、什么时候在思考，不会中途打断你说话。多语言切换很顺滑：你说中文，它说中文；你说西班牙语，它也能自动切换。回答更“懂行”：它可以从你公司的知识库里直接找资料来回答你，不胡说。批量打电话不求人：几百几千个客户，系统可以一次性给他们打电话发通知。一个模型管两种互动方式：不用分开发文字和语音版本，省人力。

#elevenlabs #对话语音助手 #Conversational AI #多语言 #AI技术 #客户服务 #语音识别

11个月前

现在很多人用“听书”、“听帖子”来替代阅读。但是有一个问题可能这些人里面大部分不知道：听读软件如果发现一句话里有敏感词，会把这句话略过去不读。

#听书 #听帖子 #语音识别 #敏感词过滤 #阅读替代

1年前

FireRedASR：小红书开源的语音识别模型支持识别普通话、方言、英文，分2个版本： FireRedASR-LLM：8.3B，为端到端的语音多模态LLM设计，能力更强，中文准确率开源最佳 FireRedASR-AED：1.1B，兼具效率和效果。 Github：模型：

#小红书 #语音识别 #开源模型 #方言识别 #英文识别 #多模态LLM #中文识别 #GitHub

1年前

《简单有效的将音频转成各式良好对话文本的方案》

#音频转文本 #转录技术 #语音识别 #文本转换方案