时政
财经
科技
虚拟货币
其他
登录
#多模态输入
关注
sitin
1天前
OpenAI 正式发布 Realtime API 降价20% 支持MCP、图像输入、可接入电话系统、新的语音和优化 与传统方案(语音转文字 + 大模型生成文字 + 文字转语音)不同,Realtime API 直接通过一个统一模型完成 语音输入-语音输出,从而减少延迟、保留语气细节,并生成更自然的对话体验。 1.模型能力的全方位提升 语音质量:生成的声音更接近真人(语调、停顿、速度),并发布新声音和优化旧声音。 语言能力:支持句内无缝切换语言、识别和表达非语言声音(如笑声)、跨语言准确朗读数字字母组合。 智能水平:在推理能力、指令遵循精度和函数调用能力三大基准测试上,相比前代模型均有显著提升(准确率提升超10个百分点)。 2.新增关键功能与优化 流程优化:支持异步函数调用,允许在后台执行长时间任务(如查数据库)时不打断前台对话。 功能扩展 (MCP):可通过 Model Context Protocol 轻松连接远程工具服务器,极大扩展了模型的能力边界。 多模态输入 (图像):除了语音和文字,现在可以输入图片让模型理解和分析。 企业集成 (SIP):支持 SIP 协议,使其能直接接入传统电话网络,用于呼叫中心等场景。 部署效率 (可复用提示):提供“模板化”的提示词管理功能,便于大规模标准化部署。
OpenAI大幅降价,o3模型API调用费用骤降80%· 6 条信息
#OpenAI
#Realtime API
#语音技术
#多模态输入
#企业集成
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞