Leo Xiang2025-03-15 16:27:19OpenAI Agent SDK 仓库中有一个"Research Agent" 的实现, 流程如下: 1、用户输入研究主题。 2、planner_agent 制定搜索计划,列出查询词及其理由。 3、search_agent 并行执行搜索,使用 Web Search 工具获取并总结结果。 4、writer_agent 整合搜索摘要,生成最终报告。 ChatGPT 的 DeepResearch应该预览#OpenAI#搜索流程#聊天机器人
Leo Xiang2025-03-12 13:02:02OpenAI 这套开发工具把Agent开发需要的基础能力都提供了,搜索、RAG、意图识别、内容审核、Computer use 以及 Browser use,整个Agent开发的成本瞬间降低了很多。 预期可见的会出来一批Agent方向的产品。 预览#OpenAI#开发工具#agent
Leo Xiang2025-02-04 12:58:22OpenAI Deep Research 输出的研报质量非常之高, 用它输出了两份我所在行业的分析报告,质量应该能赶上工作三年的分析师出的内容。 Deep Research 还只能从互联网上收集信息,如果能支持把私有数据喂给他进行二次创作,效果会更好。 #OpenAI#研报质量#行业分析
Leo Xiang2025-01-30 18:08:19经过这几天的开发,RealtimeAI开源项目已经初具雏形,目前项目已经支持了Gemini Multimodel live API 和 OpenAI Realtime API。 主要包括三部分: - AI SDK (WebRTC): 在客户端侧通过WebRTC协议捕获音视频流并进行处理,如音视频编码、部分前置推理等; - WebRTC Gateway:主要负责信令管理、NAT/防火墙穿透、转#RealtimeAI#开源项目
Leo Xiang2025-01-25 12:47:08让Operator 去抓取X Timeline 上的10条内容,Operator操作半天给我返回了几条Post的链接,短期之内可能都是用来做做demo,到真正产生生产力还有很长路要走。 1、Operator 会在云端记录你的Session,比如之前登录过再次登录就不需要密码,但这个安全性怎么保证? 2、Operator 目前的能力还是只能完成点一点,输入文本类似的操作,更复杂的操作就无能为力了#Operator#demo#生产
Leo Xiang2025-01-24 12:30:47在Deepseek R1 之前,OpenAI 的O1还是领先中国的大模型厂商一代,R1出来之后已经不存在代际差了。 OpenAI如何说服大家购买他的200$ 每月的Pro?#OpenAI#大模型#代际差
Leo Xiang2025-01-19 13:47:00给Gemini 2.0 增加了WebRTC的支持, 实现了类似 OpenAI Realtime API with WebRTC 的方案. Gemini with WebRTC,Like OpenAI Realtime API with WebRTC. 代码开源: #Gemini2.0#WebRTC#OpenSource
Leo Xiang2025-01-18 02:05:44早晨醒来一想到我的ChatGPT Claude 以及 Cursor还没开始干活就有点愧疚,浪费了这个时代对我们的馈赠。#ChatGPT#Claude#Cursor
Leo Xiang2025-01-07 01:27:24看到一个语音聊天助手的prompt,分享给大家, 尤其是第四条,让大模型来引导聊天内容,整个对话轮次就上来了。 #语音聊天助手#引导聊天内容#聊天对话轮次
Leo Xiang2025-01-04 11:53:46写代码的时候我会Cursor 和 Claude App混着用,Cursor中有的问题解决不了,反而Claude 能给出更好的代码, 不确定Claude App中加入了什么样的魔法。#Cursor#写代码#问题解决
Leo Xiang2024-12-30 16:21:48最近用的比较好的一个Cursor小特性: NotePads 比如最近开发Realtime API的SDK, 就把Realtime API 相关的文档放到NotePads中,Cursor就能自动学习到最新的Realtime API相关的知识了。 #Cursor小特性#NotePads#SDK
Leo Xiang2024-12-29 06:03:49用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程: 1、在浏览器中WebRTC 资料比较多,完全依赖Cursor就能实现。 2、用golang在实现的过程中涉及到音频的采集和播放,遇到portaudio的编译 以及 pion的版本问题,这个时候需要人来一步步来debug,cursor 作为那个实施的人,不过效率也高了很#Cursor#js#golang
Leo Xiang2024-10-28 05:50:54最近深度使用 Napkin,这个工具很不错,大模型 + 图表方向潜力还非常大, 如下图:几分钟就可以出一个。 Napkin 的实现思路有伙伴研究过的没? #Napkin#大模型#图表工具