时政
财经
科技
虚拟货币
其他
登录
#WebRTC
关注
Leo Xiang
6个月前
经过这几天的开发,RealtimeAI开源项目已经初具雏形,目前项目已经支持了Gemini Multimodel live API 和 OpenAI Realtime API。 主要包括三部分: - AI SDK (WebRTC): 在客户端侧通过WebRTC协议捕获音视频流并进行处理,如音视频编码、部分前置推理等; - WebRTC Gateway:主要负责信令管理、NAT/防火墙穿透、转发媒体流等工作.; - AI Service :提供实时推理或实时数据处理能力,如语音识别、图像识别、实时字幕、语音合成、实时大模型交互; 项目地址:
#RealtimeAI
#开源项目
#Gemini Multimodel
#OpenAI Realtime API
#AI SDK
#WebRTC
#WebRTC Gateway
#信令管理
#音视频处理
分享
评论 0
0
小互
6个月前
OpenAI 开发者日,推出了一个实时 API 可以通过语音和3D太阳系进行实时的语音交互 该项目基于 Spline(3D 设计工具)构建,使用 Function Calling 机制来触发应用中的动画和交互。 结合语音 AI、WebRTC 和 3D 交互的演示项目,可用于探索太阳系,也可扩展到其他语音控制 3D 场景应用。 适合开发者学习 Function Calling、WebRTC 实时交互、3D 数据可视化等技术。 可定制 AI 交互方式,或更换 3D 场景,适用于教育、游戏、数据可视化等领域。
#OpenAI
#API
#实时语音交互
#3D太阳系
#Function Calling
#Spline
#WebRTC
#语音AI
#开发者日
分享
评论 0
0
Leo Xiang
6个月前
给Gemini 2.0 增加了WebRTC的支持, 实现了类似 OpenAI Realtime API with WebRTC 的方案. Gemini with WebRTC,Like OpenAI Realtime API with WebRTC. 代码开源:
#Gemini2.0
#WebRTC
#OpenSource
#OpenAI
#RealtimeAPI
#Technology
分享
评论 0
0
akazwz
7个月前
开源了. GitHub 地址是: . 体验地址是 , 代码很简单, 自己就可以部署一个, 主要还是可以用来学习 WebSocket 和 WebRTC. 还有 Cloudflare Durable 的使用
#开源
#GitHub
#WebSocket
#WebRTC
#CloudFlare
#Durable
分享
评论 0
0
Leo Xiang
7个月前
用Cursor分别用js(通过浏览器) 和 golang 实现了 Realtime API with WebRTC 的通信过程: 1、在浏览器中WebRTC 资料比较多,完全依赖Cursor就能实现。 2、用golang在实现的过程中涉及到音频的采集和播放,遇到portaudio的编译 以及 pion的版本问题,这个时候需要人来一步步来debug,cursor 作为那个实施的人,不过效率也高了很多。
#Cursor
#js
#golang
#WebRTC
#浏览器
#音频采集
#portaudio
#pion
#debug
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞