Leo Xiang2025-01-30 18:08:19经过这几天的开发,RealtimeAI开源项目已经初具雏形,目前项目已经支持了Gemini Multimodel live API 和 OpenAI Realtime API。 主要包括三部分: - AI SDK (WebRTC): 在客户端侧通过WebRTC协议捕获音视频流并进行处理,如音视频编码、部分前置推理等; - WebRTC Gateway:主要负责信令管理、NAT/防火墙穿透、转#RealtimeAI#开源项目
小互2025-01-30 10:11:11OpenAI 开发者日,推出了一个实时 API 可以通过语音和3D太阳系进行实时的语音交互 该项目基于 Spline(3D 设计工具)构建,使用 Function Calling 机制来触发应用中的动画和交互。 结合语音 AI、WebRTC 和 3D 交互的演示项目,可用于探索太阳系,也可扩展到其他语音控制 3D 场景应用。 适合开发者学习 Function Calling、WebRTC #OpenAI#API#实时语音交互
Leo Xiang2025-01-19 13:47:00给Gemini 2.0 增加了WebRTC的支持, 实现了类似 OpenAI Realtime API with WebRTC 的方案. Gemini with WebRTC,Like OpenAI Realtime API with WebRTC. 代码开源: #Gemini2.0#WebRTC#OpenSource
akazwz2025-01-06 09:38:43开源了. GitHub 地址是: . 体验地址是 , 代码很简单, 自己就可以部署一个, 主要还是可以用来学习 WebSocket 和 WebRTC. 还有 Cloudflare Durable 的使用#开源#GitHub#WebSocket
Leo Xiang2024-12-29 06:03:49用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程: 1、在浏览器中WebRTC 资料比较多,完全依赖Cursor就能实现。 2、用golang在实现的过程中涉及到音频的采集和播放,遇到portaudio的编译 以及 pion的版本问题,这个时候需要人来一步步来debug,cursor 作为那个实施的人,不过效率也高了很#Cursor#js#golang