Leo Xiang
5天前
-
经过这几天的开发,RealtimeAI开源项目已经初具雏形,目前项目已经支持了Gemini Multimodel live API 和 OpenAI Realtime API。 主要包括三部分: - AI SDK (WebRTC): 在客户端侧通过WebRTC协议捕获音视频流并进行处理,如音视频编码、部分前置推理等; - WebRTC Gateway:主要负责信令管理、NAT/防火墙穿透、转
经过这几天的开发,RealtimeAI开源项目已经初具雏形,目前项目已经支持了Gemini Multimodel live API 和 OpenAI Realtime API。 主要包括三部分: - AI SDK (WebRTC): 在客户端侧通过WebRTC协议捕获音视频流并进行处理,如音视频编码、部分前置推理等; - WebRTC Gateway:主要负责信令管理、NAT/防火墙穿透、转发媒体流等工作.; - AI Service :提供实时推理或实时数据处理能力,如语音识别、图像识别、实时字幕、语音合成、实时大模型交互; 项目地址: