时政
财经
科技
虚拟货币
其他
登录
Leo Xiang
关注
统计数据
69
文章
0
粉丝
0
获赞
195
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Leo Xiang
1个月前
腾讯的EdgeOne + AI建站给大家送福利了🔥🔥 腾讯 Kepler Plan S3 全球高校开发者大赛正式启动 🔥 AI 正在重新定义前端开发。Kepler Plan 开发者大赛本季内容聚焦【AI+建站】,诚邀高校学生免费报名参赛,运用腾讯EdgeOne Pages + AI 工具智能开发、部署下一代网站。 丰厚奖励: 💼 腾讯招聘:为优胜队伍成员提供腾讯内推机会 🖥 开发者资源:最高可享受12个月免费腾讯云EdgeOne标准版套餐(价值$7080) 🏆 官网展示:获奖项目将作为官方网站模板在腾讯官网上展示 📈 履历添彩:提交网站项目,完赛即可获得官方证书 赛程安排: - 报名启动:7月4日 - 项目提交DDL:8月4日 12am(美东时间) - 决赛名单公布:8月7日 - 奖项公布:8月下旬 🚀报名地址:
分享
评论 0
0
Leo Xiang
1个月前
11labs的专业的音频clone (需要30分钟训练) 收费依旧是很贵,目前看这块没有太多竞品,大家还是在卷zero shot 声音clone。
分享
评论 0
0
Leo Xiang
1个月前
现在clone一个产品实现的门槛太低了。 构建自己产品的时候要好好想想如何构建自己持续的竞争力。
#AI掘金:知识付费新机,流量为王时代· 133 条信息
分享
评论 0
0
Leo Xiang
1个月前
音频端到端模型一个残酷的现实。
分享
评论 0
0
Leo Xiang
1个月前
应该给Gemini CLI 增加一个语音输入,这个就是真的PC端的语音助手了。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 382 条信息
#Gemini CLI
#语音输入
#PC端
#语音助手
#建议
分享
评论 0
0
Leo Xiang
2个月前
Gemini-cli 的介绍是: An open-source AI agent。 不只是一个编程工具。
分享
评论 0
0
Leo Xiang
2个月前
不知道有没有硬件可以接管手机的音频,能接管手机音频的输入和播放,并能支持编程对音频进行处理。 如果有这样的硬件和解决方案可以联系我。
分享
评论 0
0
Leo Xiang
2个月前
OpenAI 引入了Webhooks,Agent相关的交互越来越复杂,可能最终的方式还是SDK + 长连接。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 382 条信息
#OpenAI
#Webhooks
#agent
#SDK
#长连接
分享
评论 0
0
Leo Xiang
2个月前
端到端音频模型 和 三段式(asr/llm/tts) 语音技术栈本质的区别是:端到端方案本身有更完备的上下文。 如果提供更多的上下文给到asr 和 tts,理论上可以做到更好,上限更高以及更灵活。
分享
评论 0
0
Leo Xiang
2个月前
不知道国内有没有类似Groq类似的产品,需要LLM的首Token降至100ms以内voice agent 的体验才能普遍提升上去。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 382 条信息
#Groq
#LLM
#首Token
#Voice Agent
#体验提升
分享
评论 0
0
Leo Xiang
2个月前
在voice agent场景下为了响应快,会先用一个小模型做一下承接语(返回一些语气词 或者 附和语),然后再等待大模型真正的返回。 这个时候有个痛点是:TTS在合成单字 或者 短句的时候往往效果不好,比较好的一个策略就是TTS也能支持流式的输入。
分享
评论 0
0
Leo Xiang
2个月前
Gemini 2.5 Pro 多模态确实遥遥领先,扔一个跟AI对话的视频让大模型分析延迟,直接给出结果。而且跟人打标签给出的结果类似。
Google Gemini 2.5发布引发AI模型性价比热议· 138 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 382 条信息
分享
评论 0
0
Leo Xiang
2个月前
我这边的团队长期招音频算法方向的伙伴,主要为对话式TTS方向。 重点突破的方向有三个: 1、延迟,推理延迟足够低(150ms内); 2、音色创作成本尽可能低; 3、拟人 & 口语化。 工作地点为北京和深圳,想探索对话式TTS方向的欢迎骚扰我。
#音频算法
#对话式TTS
#低延迟
#音色创作
#拟人化
#招聘
#北京
#深圳
分享
评论 0
0
Leo Xiang
2个月前
有个非常大的痛点: 我一般会把我的代码目录放到 icloud 中同步,自从搞了python 和 node的项目之后 icloud的容量就很不够用了。icloud不知道有没有办法单独过滤 python和node的依赖项。
#Python项目
#Node项目
#iCloud
#存储容量
#依赖项管理
分享
评论 0
0
Leo Xiang
2个月前
网络延迟已经超过推理延迟,对于在构造realtime agent的公司来说要及早构建自己asr/llm/tts的闭环,只有在需要强推理的情况下才调用外部大模型。
#网络延迟
#实时代理
#ASR
#LLM
#TTS
#闭环
#推理延迟
#大模型
分享
评论 0
0
Leo Xiang
2个月前
想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了: Realtime API = ASR + TTS + 意图识别小模型。 更多的是作为语音交互Agent的接入层。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 382 条信息
#OpenAI
#Realtime API
#Gemini Live API
#ASR
#TTS
#语音交互
#意图识别
#AI
分享
评论 0
0
Leo Xiang
2个月前
关于多Agent 以及 单Agent之争,大家都是站在自己的角度来描述观点: Anthropic:从大模型角度来说要建立一个多Agent系统的生态,每个Agent做好自己的事情,多Agent才是未来。 Cognition(Devin):是在做一个具体的Agent,会从如何更好的完成任务,如何更稳定入手,更关注单个Agent的效率。
#多智能体之争:Anthropic生态VS单智能体· 20 条信息
#多Agent
#单Agent
#大模型
#Agent系统生态
#任务效率
分享
评论 0
0
Leo Xiang
2个月前
今年音频多模态方向的研发抢人薪资给的非常疯狂。 这个是一个大热的方向。
#音频多模态
#研发抢人
#薪资
分享
评论 0
0
Leo Xiang
2个月前
抛个问题: low code的agent平台,大家有在生产环境中用起来的么?
#低代码
#平台
#生产环境
分享
评论 0
0
Leo Xiang
2个月前
过了一遍openai 的 agent sdk, 设计的非常简洁清晰,喜欢这种轻量的设计。
#OpenAI
#Agent SDK
#设计
#简洁
#轻量
分享
评论 0
0
Leo Xiang
3个月前
Gemini Live API 这次模型更新有两个特别好的能力: 1、Proactive Audio(主动音频响应) 模型会根据上下文主动判断是否有必要作出回应,以及打断。 2、Asynchronous Function Calling(异步函数调用) 允许模型在函数执行期间继续与用户对话。 这两个都非常实用。
#Gemini
#API
#模型更新
#Proactive Audio
#主动音频响应
#Asynchronous Function Calling
#异步函数调用
分享
评论 0
0
Leo Xiang
3个月前
不知道有没有基于webscoekt 的agent 互通协议, 基于http的agent协议完全不考虑实时场景。 基于http的agent 协议在实时场景有很大问题,http 这种调来调去 一是延迟大 ,二是还得搞webhook,交互一点没简单。
#WebSocket
#agent互通协议
#http协议
#实时通信
#webhook
#延迟问题
分享
评论 0
0
Leo Xiang
3个月前
太忧伤了,还是继续用ChatGPT吧。
#ChatGPT
#继续使用
#不放弃
#用户体验
#选择
#忧伤
分享
评论 0
0
Leo Xiang
3个月前
Google 在多模态方向真是碾压的存在。
#Google
#多模态方向
#技术创新
分享
评论 0
0
Leo Xiang
3个月前
Gemini 放出来了一次性合成多个人的对话的TTS,复现NotebookLM 的多人播客效果的门槛也没了。
#Gemini
#TTS
#NotebookLM
#多人播客
#合成对话
分享
评论 0
0
上一页
1
2
3
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞