Leo Xiang

统计数据

174
文章
0
粉丝
0
获赞
2474
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
Leo Xiang
6个月前
现在clone一个产品实现的门槛太低了。 构建自己产品的时候要好好想想如何构建自己持续的竞争力。
#AI掘金:知识付费新机,流量为王时代· 244 条信息
avatar
Leo Xiang
6个月前
用了几天Claude code,CC 的强项在于规划 以及 tool的使用,从能力上来说确实比Cursor目前的版本更好。但CC的这部分优势很难保持,Cursor 估计很快就能学习以及追上来,估计下个版本就能跟CC的效果对齐。 还没切换Claude code 应该不用着急。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude Code #Cursor #Tool #版本 #学习
avatar
Leo Xiang
6个月前
音频端到端模型一个残酷的现实。
avatar
Leo Xiang
6个月前
应该给Gemini CLI 增加一个语音输入,这个就是真的PC端的语音助手了。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#Gemini CLI #语音输入 #PC端 #语音助手 #建议
avatar
Leo Xiang
6个月前
让Claude code 写了一个国内大模型速度评测的leaderboard,豆包1.6的这个模型的速度确实快。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude #豆包1.6 #大模型速度评测 #leaderboard #速度快
avatar
Leo Xiang
6个月前
Claude code 敞开用一天几十美刀,能开订阅还是开订阅吧。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude #Code #订阅 #价格 #美元
avatar
Leo Xiang
6个月前
让claude code 帮我写了一个评测各家模型的小工具并做成leaderboard,一把过的感觉太爽了。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude #代码工具 #模型评测 #leaderboard #积极
avatar
Leo Xiang
6个月前
Claude code + Cursor 配合食用效果更佳。 从这个方面说Claude code 并不会对Cursor造成太多的竞争。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude Code #Cursor #配合使用 #无竞争 #技术
avatar
Leo Xiang
6个月前
Claude code 确实工具用的很好,会规划好todo,一步一步的执行。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude #代码工具 #规划 #执行 #积极
avatar
Leo Xiang
6个月前
Gemini-cli 的介绍是: An open-source AI agent。 不只是一个编程工具。
avatar
Leo Xiang
6个月前
不知道有没有硬件可以接管手机的音频,能接管手机音频的输入和播放,并能支持编程对音频进行处理。 如果有这样的硬件和解决方案可以联系我。
avatar
Leo Xiang
6个月前
OpenAI 引入了Webhooks,Agent相关的交互越来越复杂,可能最终的方式还是SDK + 长连接。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#OpenAI #Webhooks #agent #SDK #长连接
avatar
Leo Xiang
6个月前
端到端音频模型 和 三段式(asr/llm/tts) 语音技术栈本质的区别是:端到端方案本身有更完备的上下文。 如果提供更多的上下文给到asr 和 tts,理论上可以做到更好,上限更高以及更灵活。
avatar
Leo Xiang
6个月前
有什么能稳定使用claude code 的方法么,claude 账号前两周刚被封了。
AI编程工具激战:Claude Code、Gemini Cli崛起· 1256 条信息
#Claude #账号被封 #寻求稳定使用方法
avatar
Leo Xiang
6个月前
不知道国内有没有类似Groq类似的产品,需要LLM的首Token降至100ms以内voice agent 的体验才能普遍提升上去。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#Groq #LLM #首Token #Voice Agent #体验提升
avatar
Leo Xiang
6个月前
在voice agent场景下为了响应快,会先用一个小模型做一下承接语(返回一些语气词 或者 附和语),然后再等待大模型真正的返回。 这个时候有个痛点是:TTS在合成单字 或者 短句的时候往往效果不好,比较好的一个策略就是TTS也能支持流式的输入。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#语音助手 #小模型 #TTS流式输入 #用户体验 #技术优化
avatar
Leo Xiang
6个月前
Gemini 2.5 Pro 多模态确实遥遥领先,扔一个跟AI对话的视频让大模型分析延迟,直接给出结果。而且跟人打标签给出的结果类似。
Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
avatar
Leo Xiang
6个月前
我这边的团队长期招音频算法方向的伙伴,主要为对话式TTS方向。 重点突破的方向有三个: 1、延迟,推理延迟足够低(150ms内); 2、音色创作成本尽可能低; 3、拟人 & 口语化。 工作地点为北京和深圳,想探索对话式TTS方向的欢迎骚扰我。
#音频算法 #对话式TTS #低延迟 #音色创作 #拟人化 #招聘 #北京 #深圳
avatar
Leo Xiang
6个月前
有个非常大的痛点: 我一般会把我的代码目录放到 icloud 中同步,自从搞了python 和 node的项目之后 icloud的容量就很不够用了。icloud不知道有没有办法单独过滤 python和node的依赖项。
#Python项目 #Node项目 #iCloud #存储容量 #依赖项管理
avatar
Leo Xiang
6个月前
网络延迟已经超过推理延迟,对于在构造realtime agent的公司来说要及早构建自己asr/llm/tts的闭环,只有在需要强推理的情况下才调用外部大模型。
#网络延迟 #实时代理 #ASR #LLM #TTS #闭环 #推理延迟 #大模型
avatar
Leo Xiang
6个月前
想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了: Realtime API = ASR + TTS + 意图识别小模型。 更多的是作为语音交互Agent的接入层。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 869 条信息
#OpenAI #Realtime API #Gemini Live API #ASR #TTS #语音交互 #意图识别 #AI
avatar
Leo Xiang
6个月前
关于多Agent 以及 单Agent之争,大家都是站在自己的角度来描述观点: Anthropic:从大模型角度来说要建立一个多Agent系统的生态,每个Agent做好自己的事情,多Agent才是未来。 Cognition(Devin):是在做一个具体的Agent,会从如何更好的完成任务,如何更稳定入手,更关注单个Agent的效率。
#多智能体之争:Anthropic生态VS单智能体· 81 条信息
#多Agent #单Agent #大模型 #Agent系统生态 #任务效率
avatar
Leo Xiang
6个月前
今年音频多模态方向的研发抢人薪资给的非常疯狂。 这个是一个大热的方向。
#音频多模态 #研发抢人 #薪资
avatar
Leo Xiang
7个月前
抛个问题: low code的agent平台,大家有在生产环境中用起来的么?
#低代码 #平台 #生产环境
avatar
Leo Xiang
7个月前
过了一遍openai 的 agent sdk, 设计的非常简洁清晰,喜欢这种轻量的设计。
#OpenAI #Agent SDK #设计 #简洁 #轻量
© 2025 news.news. All rights reserved. 0.09951 秒. v1.0.46
我的评论