时政
财经
科技
登录
#语音识别
关注
Shaolei Zhang
2周前
👏🏻Stream-Omni:一个类GPT-4o的文本-视觉-语音多模态大模型 (1)同时支持文本、视觉、语音输入,生成文本和语音回复。 (2)语音交互过程中,同步生成中间的语音识别、文本回复结果,提供更加全面的多模态交互体验! 📝论文: 🔗代码&Demo:
#多模态大模型
#GPT-4
#文本-视觉-语音统一
#AI交互
#语音识别
#中间生成
分享
评论 0
0
ding.one
2周前
很多人都慢慢发现用语音代替打字的快捷了,不管是 vibe coding 还是和 AI 对话效率都爆棚,未来的操作系统肯定会把鼠标和键盘更加边缘化的。但目前这个赛道太卷了,我已经尝试过这么多了: Superwhisper: Willow Voice: Aqua Voice: Macwhisper: WisprFlow: Harker: VoiceInk: Spokenly: VoiceType: TalkTastic:
#语音识别
#人工智能
#操作系统
#科技趋势
#人机交互
分享
评论 0
0
sitin
2周前
OpenAI高级语音功能大升级!对话像真人般自然流畅,语调有起伏、节奏更真实,还自带情绪表达,从同理心到讽刺全都拿捏。 语音翻译更是厉害,多轮对话无需重复指令,旅行、商务、学习全搞定。
AI编程:Gemini领跑,协作创新涌现· 189 条信息
#OpenAI
#语音技术
#自然语言处理
#语音识别
#情感表达
#语音翻译
#人工智能
#技术升级
分享
评论 0
0
小互
1个月前
借助实时分析语音节奏与停顿信号(如“um”“ah”),AI 可判断何时等待、何时回应,避免打断用户或不自然的等待,使对话更像真实人类交流。 几乎没有延迟... 详细介绍:
#AI对话
#语音识别
#人机互动
分享
评论 0
0
小互
1个月前
ElevenLabs 发布其对话语音助手: Conversational AI 2.0 相较于上一代有了巨大飞跃 亮点功能: 说话不尴尬了:它能听懂你什么时候停顿、什么时候在思考,不会中途打断你说话。 多语言切换很顺滑:你说中文,它说中文;你说西班牙语,它也能自动切换。 回答更“懂行”:它可以从你公司的知识库里直接找资料来回答你,不胡说。 批量打电话不求人:几百几千个客户,系统可以一次性给他们打电话发通知。 一个模型管两种互动方式:不用分开发文字和语音版本,省人力。
#elevenlabs
#对话语音助手
#Conversational AI
#多语言
#AI技术
#客户服务
#语音识别
分享
评论 0
0
小径残雪
2个月前
现在很多人用“听书”、“听帖子”来替代阅读。 但是有一个问题可能这些人里面大部分不知道:听读软件如果发现一句话里有敏感词,会把这句话略过去不读。
#听书
#听帖子
#语音识别
#敏感词过滤
#阅读替代
分享
评论 0
0
Gorden Sun
4个月前
FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github: 模型:
#小红书
#语音识别
#开源模型
#方言识别
#英文识别
#多模态LLM
#中文识别
#GitHub
分享
评论 0
0
宝玉
5个月前
《简单有效的将音频转成各式良好对话文本的方案》
#音频转文本
#转录技术
#语音识别
#文本转换方案
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞