Leo Xiang
1天前
x-Leo Xiang
Leo Xiang
1天前
Leo Xiang
5天前
经过这几天的开发,RealtimeAI开源项目已经初具雏形,目前项目已经支持了Gemini Multimodel live API 和 OpenAI Realtime API。 主要包括三部分: - AI SDK (WebRTC): 在客户端侧通过WebRTC协议捕获音视频流并进行处理,如音视频编码、部分前置推理等; - WebRTC Gateway:主要负责信令管理、NAT/防火墙穿透、转发媒体流等工作.; - AI Service :提供实时推理或实时数据处理能力,如语音识别、图像识别、实时字幕、语音合成、实时大模型交互; 项目地址:
Leo Xiang
1周前
让Operator 去抓取X Timeline 上的10条内容,Operator操作半天给我返回了几条Post的链接,短期之内可能都是用来做做demo,到真正产生生产力还有很长路要走。 1、Operator 会在云端记录你的Session,比如之前登录过再次登录就不需要密码,但这个安全性怎么保证? 2、Operator 目前的能力还是只能完成点一点,输入文本类似的操作,更复杂的操作就无能为力了。
Leo Xiang
1周前
Leo Xiang
2周前
Leo Xiang
2周前
Leo Xiang
3周前
Leo Xiang
4周前
Leo Xiang
1个月前
Leo Xiang
1个月前
Leo Xiang
1个月前
用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程: 1、在浏览器中WebRTC 资料比较多,完全依赖Cursor就能实现。 2、用golang在实现的过程中涉及到音频的采集和播放,遇到portaudio的编译 以及 pion的版本问题,这个时候需要人来一步步来debug,cursor 作为那个实施的人,不过效率也高了很多。
Leo Xiang
3个月前