时政
财经
科技
虚拟货币
其他
登录
#语音技术
关注
sitin
4周前
OpenAI 正式发布 Realtime API 降价20% 支持MCP、图像输入、可接入电话系统、新的语音和优化 与传统方案(语音转文字 + 大模型生成文字 + 文字转语音)不同,Realtime API 直接通过一个统一模型完成 语音输入-语音输出,从而减少延迟、保留语气细节,并生成更自然的对话体验。 1.模型能力的全方位提升 语音质量:生成的声音更接近真人(语调、停顿、速度),并发布新声音和优化旧声音。 语言能力:支持句内无缝切换语言、识别和表达非语言声音(如笑声)、跨语言准确朗读数字字母组合。 智能水平:在推理能力、指令遵循精度和函数调用能力三大基准测试上,相比前代模型均有显著提升(准确率提升超10个百分点)。 2.新增关键功能与优化 流程优化:支持异步函数调用,允许在后台执行长时间任务(如查数据库)时不打断前台对话。 功能扩展 (MCP):可通过 Model Context Protocol 轻松连接远程工具服务器,极大扩展了模型的能力边界。 多模态输入 (图像):除了语音和文字,现在可以输入图片让模型理解和分析。 企业集成 (SIP):支持 SIP 协议,使其能直接接入传统电话网络,用于呼叫中心等场景。 部署效率 (可复用提示):提供“模板化”的提示词管理功能,便于大规模标准化部署。
OpenAI大幅降价,o3模型API调用费用骤降80%· 6 条信息
#OpenAI
#Realtime API
#语音技术
#多模态输入
#企业集成
分享
评论 0
0
sitin
3个月前
OpenAI高级语音功能大升级!对话像真人般自然流畅,语调有起伏、节奏更真实,还自带情绪表达,从同理心到讽刺全都拿捏。 语音翻译更是厉害,多轮对话无需重复指令,旅行、商务、学习全搞定。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 519 条信息
#OpenAI
#语音技术
#自然语言处理
#语音识别
#情感表达
#语音翻译
#人工智能
#技术升级
分享
评论 0
0
AI Will
3个月前
哇,Hume 刚刚发布了 EVI 3 这个 AI 可以用你想象的任何声音说话 🤯 试试看,亲自体验:👇
#Hume
#EVI3
#AI声音
#人工智能
#语音技术
#EVI3发布
分享
评论 0
0
Gorden Sun
4个月前
谷歌新发布的Gemini 2.5 Flash Exp Audio模型,是原生多模态模型,支持文本、图片、语音输入,支持文本、语音输出。 输出的语音支持各种语气和声音,也能唱歌和RAP,虽然中文有时会有发音错误,但整体也非常不错了,ASMR的少女声音,让人感觉又恋爱了。 下方视频第一段:少女ASMR 下方视频第二段:唱歌和RAP
#谷歌
#Gemini
#多模态模型
#语音技术
#唱歌
#RAP
#ASMR
分享
评论 0
0
倪爽
8个月前
我的零痛苦 AI 学英语技巧 #活到死学到死 去年超热门的 NotebookLM、能把文章变成活灵活现的播客节目的那个,我用它表弟 Illuminate AI 学英语 Illuminate 能生成一问一答音频,适合讲解论文、分析长文章,我用它把有趣的英语长文转为 3、5 分钟的短音频,用碎片时间听它们 因为我生成的都是我喜欢的、很有趣的文章,学习过程过程毫无痛苦😂,背单词、学句型、学发音…都行 比如我一天生成 10 条音频、每条 5 分钟、每分钟 130 个单词…一个月我能覆盖接近 20 万的单词,以及无数短语、句子 试听一下我生成的介绍 NFT 泡沫的故事,Youtube 上的原始视频有 76 分钟长,Illuminate 缩成了 6 分钟 Illuminate 的语气有随意、正式、指导、自定义几种,每天能免费生成 20 条音频
#学习技巧
#AI学习
#英语学习
#语音技术
#IlluminateAI
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞