时政
财经
科技
登录
Leo Xiang
关注
统计数据
58
文章
0
粉丝
0
获赞
77
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
Leo Xiang
3周前
Gemini 2.5 Pro 多模态确实遥遥领先,扔一个跟AI对话的视频让大模型分析延迟,直接给出结果。而且跟人打标签给出的结果类似。
Google Gemini 2.5发布引发AI模型性价比热议· 34 条信息
#AI编程:Kimi搅局,Claude封号,群雄逐鹿· 332 条信息
分享
评论 0
0
Leo Xiang
3周前
我这边的团队长期招音频算法方向的伙伴,主要为对话式TTS方向。 重点突破的方向有三个: 1、延迟,推理延迟足够低(150ms内); 2、音色创作成本尽可能低; 3、拟人 & 口语化。 工作地点为北京和深圳,想探索对话式TTS方向的欢迎骚扰我。
#音频算法
#对话式TTS
#低延迟
#音色创作
#拟人化
#招聘
#北京
#深圳
分享
评论 0
0
Leo Xiang
3周前
有个非常大的痛点: 我一般会把我的代码目录放到 icloud 中同步,自从搞了python 和 node的项目之后 icloud的容量就很不够用了。icloud不知道有没有办法单独过滤 python和node的依赖项。
#Python项目
#Node项目
#iCloud
#存储容量
#依赖项管理
分享
评论 0
0
Leo Xiang
4周前
网络延迟已经超过推理延迟,对于在构造realtime agent的公司来说要及早构建自己asr/llm/tts的闭环,只有在需要强推理的情况下才调用外部大模型。
#网络延迟
#实时代理
#ASR
#LLM
#TTS
#闭环
#推理延迟
#大模型
分享
评论 0
0
Leo Xiang
1个月前
想清楚 OpenAI Realtime API 以及 Gemini Live API是什么了: Realtime API = ASR + TTS + 意图识别小模型。 更多的是作为语音交互Agent的接入层。
#AI编程:Kimi搅局,Claude封号,群雄逐鹿· 332 条信息
#OpenAI
#Realtime API
#Gemini Live API
#ASR
#TTS
#语音交互
#意图识别
#AI
分享
评论 0
0
Leo Xiang
1个月前
关于多Agent 以及 单Agent之争,大家都是站在自己的角度来描述观点: Anthropic:从大模型角度来说要建立一个多Agent系统的生态,每个Agent做好自己的事情,多Agent才是未来。 Cognition(Devin):是在做一个具体的Agent,会从如何更好的完成任务,如何更稳定入手,更关注单个Agent的效率。
#多智能体之争:Anthropic生态VS单智能体· 8 条信息
#多Agent
#单Agent
#大模型
#Agent系统生态
#任务效率
分享
评论 0
0
Leo Xiang
1个月前
今年音频多模态方向的研发抢人薪资给的非常疯狂。 这个是一个大热的方向。
#音频多模态
#研发抢人
#薪资
分享
评论 0
0
Leo Xiang
1个月前
抛个问题: low code的agent平台,大家有在生产环境中用起来的么?
#低代码
#平台
#生产环境
分享
评论 0
0
Leo Xiang
1个月前
过了一遍openai 的 agent sdk, 设计的非常简洁清晰,喜欢这种轻量的设计。
#OpenAI
#Agent SDK
#设计
#简洁
#轻量
分享
评论 0
0
Leo Xiang
1个月前
Gemini Live API 这次模型更新有两个特别好的能力: 1、Proactive Audio(主动音频响应) 模型会根据上下文主动判断是否有必要作出回应,以及打断。 2、Asynchronous Function Calling(异步函数调用) 允许模型在函数执行期间继续与用户对话。 这两个都非常实用。
#Gemini
#API
#模型更新
#Proactive Audio
#主动音频响应
#Asynchronous Function Calling
#异步函数调用
分享
评论 0
0
Leo Xiang
1个月前
不知道有没有基于webscoekt 的agent 互通协议, 基于http的agent协议完全不考虑实时场景。 基于http的agent 协议在实时场景有很大问题,http 这种调来调去 一是延迟大 ,二是还得搞webhook,交互一点没简单。
#WebSocket
#agent互通协议
#http协议
#实时通信
#webhook
#延迟问题
分享
评论 0
0
Leo Xiang
1个月前
太忧伤了,还是继续用ChatGPT吧。
#ChatGPT
#继续使用
#不放弃
#用户体验
#选择
#忧伤
分享
评论 0
0
Leo Xiang
1个月前
Google 在多模态方向真是碾压的存在。
#Google
#多模态方向
#技术创新
分享
评论 0
0
Leo Xiang
1个月前
Gemini 放出来了一次性合成多个人的对话的TTS,复现NotebookLM 的多人播客效果的门槛也没了。
#Gemini
#TTS
#NotebookLM
#多人播客
#合成对话
分享
评论 0
0
Leo Xiang
1个月前
每天通过Chatgpt 学习一个小时,很快就能初步了解一个方向:
#ChatGPT
#学习
#人工智能
#自我提升
分享
评论 0
0
Leo Xiang
1个月前
OpenAI 在协议定义上还是有号召力,Realtime API 的规范也基本成为标准了,看到多家的端到端方案都采用了Realtime API标准,或者是修改版的Realtime API 标准。
#OpenAI
#协议定义
#Realtime API
#标准化
#端到端方案
分享
评论 0
0
Leo Xiang
1个月前
好消息是:gemini live api 支持中文了 坏消息是: 中文tts效果基本没法听
#gemini live
#API
#中文支持
#TTS
#语音合成
分享
评论 0
0
Leo Xiang
4个月前
OpenAI Agent SDK 仓库中有一个"Research Agent" 的实现, 流程如下: 1、用户输入研究主题。 2、planner_agent 制定搜索计划,列出查询词及其理由。 3、search_agent 并行执行搜索,使用 Web Search 工具获取并总结结果。 4、writer_agent 整合搜索摘要,生成最终报告。 ChatGPT 的 DeepResearch应该也是这个流程,用了更好的模型 + 更好的工程化。
#OpenAI
#Agent SDK
#Research Agent
#搜索流程
#聊天机器人
#DeepResearch
#AI技术
分享
评论 0
0
Leo Xiang
4个月前
OpenAI 这套开发工具把Agent开发需要的基础能力都提供了,搜索、RAG、意图识别、内容审核、Computer use 以及 Browser use,整个Agent开发的成本瞬间降低了很多。 预期可见的会出来一批Agent方向的产品。
#OpenAI
#开发工具
#agent
#搜索
#RAG
#意图识别
#内容审核
#Computer use
#Browser Use
分享
评论 0
0
Leo Xiang
5个月前
国内大模型公司To B不好做了,大家需求很一致,效果对齐deepseek 或者 直接部署deepseek。
#国内大模型公司
#To B市场
#市场需求
#效果对齐
#技术部署
#DeepSeek
分享
评论 0
0
Leo Xiang
5个月前
看到好几个群里都有在找 deepseek 稳定的api供应商的信息,从这个层面说算力还是远远不够。
#DeepSeek
#api供应商
#算力
分享
评论 0
0
Leo Xiang
5个月前
OpenAI Deep Research 输出的研报质量非常之高, 用它输出了两份我所在行业的分析报告,质量应该能赶上工作三年的分析师出的内容。 Deep Research 还只能从互联网上收集信息,如果能支持把私有数据喂给他进行二次创作,效果会更好。
#OpenAI
#Deep Research
#研报质量
#行业分析
#私有数据
分享
评论 0
0
Leo Xiang
5个月前
经过这几天的开发,RealtimeAI开源项目已经初具雏形,目前项目已经支持了Gemini Multimodel live API 和 OpenAI Realtime API。 主要包括三部分: - AI SDK (WebRTC): 在客户端侧通过WebRTC协议捕获音视频流并进行处理,如音视频编码、部分前置推理等; - WebRTC Gateway:主要负责信令管理、NAT/防火墙穿透、转发媒体流等工作.; - AI Service :提供实时推理或实时数据处理能力,如语音识别、图像识别、实时字幕、语音合成、实时大模型交互; 项目地址:
#RealtimeAI
#开源项目
#Gemini Multimodel
#OpenAI Realtime API
#AI SDK
#WebRTC
#WebRTC Gateway
#信令管理
#音视频处理
分享
评论 0
0
Leo Xiang
5个月前
让Operator 去抓取X Timeline 上的10条内容,Operator操作半天给我返回了几条Post的链接,短期之内可能都是用来做做demo,到真正产生生产力还有很长路要走。 1、Operator 会在云端记录你的Session,比如之前登录过再次登录就不需要密码,但这个安全性怎么保证? 2、Operator 目前的能力还是只能完成点一点,输入文本类似的操作,更复杂的操作就无能为力了。
#Operator
#X Timeline
#demo
#生产
#安全性
#能力
#操作
分享
评论 0
0
Leo Xiang
5个月前
在Deepseek R1 之前,OpenAI 的O1还是领先中国的大模型厂商一代,R1出来之后已经不存在代际差了。 OpenAI如何说服大家购买他的200$ 每月的Pro?
#DeepSeek R1
#OpenAI
#大模型
#代际差
#Pro订阅
分享
评论 0
0
上一页
1
2
3
下一页
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞