时政
财经
科技
虚拟货币
其他
登录
#ASR
关注
Leo Xiang
23小时前
说一个最近的观点: 大厂的 asr 和 tts 可能真做不到中厂以及小厂,大厂的合规成本太高了。
#大厂
#ASR
#TTS
#合规成本
#小厂
分享
评论 0
0
Leo Xiang
1周前
Azure 的 asr 和 tts 是提供SDK 最全的,比如基本的采集和播放都已经支持了,想问一下推友,你们在选asr和tts的供应商的时候一个好用的SDK在决策中占多大的比重?
#Azure
#ASR
#TTS
#SDK
#供应商选择
分享
评论 0
0
Leo Xiang
2个月前
网络延迟已经超过推理延迟,对于在构造realtime agent的公司来说要及早构建自己asr/llm/tts的闭环,只有在需要强推理的情况下才调用外部大模型。
#网络延迟
#实时代理
#ASR
#LLM
#TTS
#闭环
#推理延迟
#大模型
分享
评论 0
0
Leo Xiang
2个月前
想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了: Realtime API = ASR + TTS + 意图识别小模型。 更多的是作为语音交互Agent的接入层。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 328 条信息
#OpenAI
#Realtime API
#Gemini Live API
#ASR
#TTS
#语音交互
#意图识别
#AI
分享
评论 0
0
Crypto_Painter
2个月前
当下ASR波段策略延时模式就处在一个长龙状态,所以我昨晚已经手动做空去斩龙了! 实际在跑的波段策略(常规模式)在第一波回调中就损了... 这波回调,波段策略连开6次多单,目前还在扛... 止损差不多在106500~106000之间,恰好很接近James的爆仓价(104800)... 看看能不能斩龙成功?
#波段策略
#ASR
#斩龙
分享
评论 0
0
AIGCLINK
5个月前
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM
#西北工业大学
#OSUM
#语音理解
#开源模型
#ASR
#情感识别
#Whisper
#Qwen2
#多任务支持
#语音识别技术
#科技新品
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞