时政
财经
科技
虚拟货币
其他
登录
#语音识别
关注
AB Kuai.Dong
3天前
字节给苹果笔记本 MacOS,开放内测的豆包输入法,太厉害了。安装后,只需要在输入栏,双击 Option 键,就能呼出语音识别。 需要补充的是,这条推文也是我用嘴说出来的。 等同于,我可以带着电脑,线下去录制语音转文字。 推上有不少人贴了获取方式。
#字节跳动
#苹果笔记本
#豆包输入法
#语音识别
#电脑应用
分享
评论 0
0
Gorden Sun
5天前
Cohere开源语音识别模型Transcribe 2B参数,本地能跑,可能是目前的开源最佳,但是不确定中文识别的效果如何。 模型:
#Cohere
#语音识别
#Transcribe
#开源模型
#中文识别
分享
评论 0
0
Vincent Yang
6天前
Koe v1.0.7 发布了!这个版本加入了实时语音识别文字预览,说话的时候可以直接在屏幕底部看到识别内容。同时新增了设置引导,对于普通用户不用再手动编辑 YAML 配置文件了。
#Koe
#语音识别
#实时预览
#软件更新
分享
评论 0
0
seekinganythingbutalpha
1周前
我不太明白为什么字节的语音识别(STT)可以做到价格最低,但是文字转语音(TTS)却是大厂中价格最高的。 难道是因为方言采风和合成的前期成本比较高? 图中价格均为今日询价计算得出,不保证时效性和正确性。 阿里价格仅为参考,不太适合一般开发者使用。
#字节跳动
#语音识别
#文字转语音
#价格
#语音技术
#方言采风
分享
评论 0
0
Larry & Leo & Lucky 🍀
1周前
Terminal 下, 需要支持按住 SPC 语音识别, 从 xfce4 升级到了 plasma, 整个过程让 Claude Code 帮我搞, 所有配置基本全部无缝迁移. 我都不敢去想, 之前这 20 年, 自己用 linux 都是过的什么样的日子....
#终端
#语音识别
#xfce4
#Plasma
#Claude Code
#Linux
分享
评论 0
0
快乐永远
1周前
冷知识: 腾讯最早在腾讯云的 中英文混合识别接口(16k_zh_en)中支持 “潮汕话” 的语音识别转文字; 但在中文方言识别接口(16k_zh_large) 至今未能支持潮汕话 ….而微信输入法 和 微信 的语音输入,同样还没有支持….
#腾讯
#潮汕话
#语音识别
#腾讯云
#微信输入法
分享
评论 0
0
偶像派作手
2周前
Typeless 这个语音输入法太好用了! 全程用语音输入,整个编辑过程不需要动到一次键盘,它会自动帮你: 1. 分段分行 2. 自动排版 你在讲到一些重点、要点的时候,它还会主动帮你分出 1、2、3,非常智能。
#Typeless
#语音输入法
#自动排版
#语音识别
#输入法
#智能软件
分享
评论 0
0
卫斯理
2周前
语音转文字那家大模型做得好?
#语音转文字
#大模型
#语音识别
#语音技术
分享
评论 0
0
吕立青_JimmyLv 2𐃏26
2周前
做了一个无限流式语音输入识别 todo,超好用! 哈哈哈 一直开着录音,然后 VAD 触发识别, 一边陪娃在玩,一边 Vibe Coding(也是语音 想到啥就说啥,直接捕获我要做的事情, 而且给足上下文,帮我自动放进对应的项目, 以及基于 OKR 设定优先级和时间日期等等。 简直完美契合我在家这个场景啊!😂
#语音识别
#Todo应用
#无限流
#VAD触发
#Vibe Coding
#OKR
#优先级设置
#项目管理
#效率工具
分享
评论 0
0
Leo Xiang
4个月前
在国内访问 11labs 的 asr 延迟确实很优秀,尾包延迟只有 300ms,支持语种也很多,11labs 估计能在 asr 领域复刻他们在 tts 领域的优势。
#11Labs
#ASR
#语音识别
#低延迟
#多语种支持
分享
评论 0
0
Feiteng
4个月前
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历+复现 Hinton Dropout 论文写就硕士毕业论文 好多年后一公司产品经理离职时来跟我说:你知道知网上你硕士论文引用很高吗? 真没看过 14 年毕业,进入一家做智能音箱的公司,也有百万用户的APP,比Amazon Echo推出时间都早,无奈技术团队太菜,一套 ASR, CTO和技术骨干搞了两年也没搞出来,技术路线落后且错误;我拿kaldi 一两周就训练出能用模型,试图扭转技术路线没有成功,最后他们妥协说,我能用 java 实现一套 ASR 识别系统就采用我的方案;随后一个月学习java 用 java 写了一套 ASR 运行时,也摸透了 kaldi decoding DNN + WFST 这一套原理; 没有掰正技术路线的时候,就下定决心离开了,当时就一个想法:得去人才密度高的地方。 后面就聊了一家公司直接加入了,合伙人都是学历履历比较优秀的,电话面试官有一位是 Google 总部语音科学家背景,深入聊了 WFST,ASR 解码原理等,这是碰到行家了;约了 on site,CTO 还考八股面试题,没刷过题只给出了思路,CEO 聊的就比较宏大了; 进入后,先做了个裁剪神经网络的活;合伙人给了一个任务,提高公司核心算法的准确率,为此他们在过去一年准备了十几个benchmark,知乎还有一个热帖讨论猜测这个核心算法;最后否定了一位资深同事和合伙人的方案,提出了自己的方案,一个人执行落地上线推给千万用户,在十几个benchmark上准确率提高到了 95%,优化神经网络计算速度40倍实现在手机端离线计算,就是玩半小时就发烫;17年交接手上语音评测、语音识别工作,新开语音合成技术方向,18-20年合成水平显著高于市场商业API,公司开all hands 就会拿来一波图灵测试;公司每年hackathon必拿奖;三年后公司纽交所上市; 这些年错过的机会: 16 年看过 比特币 18年被邀请去字节组建团队,当时公司很快上市,没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊,过了个春节 23年初写了个开源项目 valle,后来跟大学生们面基,他们说 这是他们的语音生成大模型入门代码,有些已是头部厂商核心研发力量;minimax 同学也说无它就增加了训练数据;这个项目带来过百万收入
#数学转行
#语音识别
#深度学习
#kaldi
#技术突破
#职场发展
#AI
#成功案例
分享
评论 0
0
Baye
4个月前
慢慢的我也喜欢语音输入了,打字太慢了。准备把 OpenCat 和 Miley 里的语音识别提取出来一个作为系统级的服务。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#语音输入
#OpenCat
#Miley
#语音识别
#系统级服务
分享
评论 0
0
karminski-牙医
7个月前
阶跃刚刚发布了一个开源的端到端的音频模型(输入是音频,输出也是音频,可以实现对话)。 帮大家整理了下模型性能。目前来看跟GPT-4o打得有来有回, 其中翻译和ASR(自动语音识别)性能是领先的,对话能力差一点,稍后为大家带来评测! 模型地址:
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#开源
#音频模型
#Step
#GPT-4o
#语音识别
分享
评论 0
0
dontbesilent
8个月前
微信这个语音识别的按钮救了我的命 应该是把微信输入法的语音识别集成过来了 iOS 系统听写太难用了,又不像安卓可以随意使用第三方输入法听写 现在移动端输出效率大幅提升
#微信
#语音识别
#输入法
#iOS
#移动端
分享
评论 0
0
Shaolei Zhang
9个月前
👏🏻Stream-Omni:一个类GPT-4o的文本-视觉-语音多模态大模型 (1)同时支持文本、视觉、语音输入,生成文本和语音回复。 (2)语音交互过程中,同步生成中间的语音识别、文本回复结果,提供更加全面的多模态交互体验! 📝论文: 🔗代码&Demo:
#多模态大模型
#GPT-4
#文本-视觉-语音统一
#AI交互
#语音识别
#中间生成
分享
评论 0
0
ding.one
9个月前
很多人都慢慢发现用语音代替打字的快捷了,不管是 vibe coding 还是和 AI 对话效率都爆棚,未来的操作系统肯定会把鼠标和键盘更加边缘化的。但目前这个赛道太卷了,我已经尝试过这么多了: Superwhisper: Willow Voice: Aqua Voice: Macwhisper: WisprFlow: Harker: VoiceInk: Spokenly: VoiceType: TalkTastic:
#语音识别
#人工智能
#操作系统
#科技趋势
#人机交互
分享
评论 0
0
sitin
9个月前
OpenAI高级语音功能大升级!对话像真人般自然流畅,语调有起伏、节奏更真实,还自带情绪表达,从同理心到讽刺全都拿捏。 语音翻译更是厉害,多轮对话无需重复指令,旅行、商务、学习全搞定。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#OpenAI
#语音技术
#自然语言处理
#语音识别
#情感表达
#语音翻译
#人工智能
#技术升级
分享
评论 0
0
小互
10个月前
借助实时分析语音节奏与停顿信号(如“um”“ah”),AI 可判断何时等待、何时回应,避免打断用户或不自然的等待,使对话更像真实人类交流。 几乎没有延迟... 详细介绍:
#AI对话
#语音识别
#人机互动
分享
评论 0
0
小互
10个月前
ElevenLabs 发布其对话语音助手: Conversational AI 2.0 相较于上一代有了巨大飞跃 亮点功能: 说话不尴尬了:它能听懂你什么时候停顿、什么时候在思考,不会中途打断你说话。 多语言切换很顺滑:你说中文,它说中文;你说西班牙语,它也能自动切换。 回答更“懂行”:它可以从你公司的知识库里直接找资料来回答你,不胡说。 批量打电话不求人:几百几千个客户,系统可以一次性给他们打电话发通知。 一个模型管两种互动方式:不用分开发文字和语音版本,省人力。
#elevenlabs
#对话语音助手
#Conversational AI
#多语言
#AI技术
#客户服务
#语音识别
分享
评论 0
0
小径残雪
11个月前
现在很多人用“听书”、“听帖子”来替代阅读。 但是有一个问题可能这些人里面大部分不知道:听读软件如果发现一句话里有敏感词,会把这句话略过去不读。
#听书
#听帖子
#语音识别
#敏感词过滤
#阅读替代
分享
评论 0
0
Gorden Sun
1年前
FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github: 模型:
#小红书
#语音识别
#开源模型
#方言识别
#英文识别
#多模态LLM
#中文识别
#GitHub
分享
评论 0
0
宝玉
1年前
《简单有效的将音频转成各式良好对话文本的方案》
#音频转文本
#转录技术
#语音识别
#文本转换方案
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞