#语音技术

seekinganythingbutalpha

1周前

我不太明白为什么字节的语音识别(STT)可以做到价格最低，但是文字转语音(TTS)却是大厂中价格最高的。难道是因为方言采风和合成的前期成本比较高？图中价格均为今日询价计算得出，不保证时效性和正确性。阿里价格仅为参考，不太适合一般开发者使用。

#字节跳动 #语音识别 #文字转语音 #价格 #语音技术 #方言采风

𝘁𝗮𝗿𝗲𝘀𝗸𝘆

2周前

#语音输入法语音输入法的终局之战已经来临了。如果你把 macOS 微信客户端更新到最新版，默认就集成了微信语音输入法。不仅在微信内，而是 macOS 全局可直接使用。

#语音输入法 #MacOS #微信 #语音技术 #更新

2周前

语音转文字那家大模型做得好？

#语音转文字 #大模型 #语音识别 #语音技术

5个月前

最近听了 ElevenLabs 联合创始人兼 CEO Mati Staniszewski 的一次访谈，让我对 AI 时代的创业机会有了全新的思考。Mati 来自波兰，他创业的初衷非常有趣，源于他从小就无法忍受波兰引进的外国电影——所有角色，无论男女，都由同一个声音用平淡无奇的语调配音。他最初的宏大愿景，就是用 AI 彻底改变这个糟糕的配音行业。让我感到意外的是，他们放弃了这个性感的梦想，并因此获得了成功。当他们带着初步的配音产品去接触潜在用户时，得到的反馈出奇地一致。一位用户告诉他：“你的想法很有趣，但实际上，如果你能先帮我解决自己声音的问题……那就好太多了。” 他们很快发现，对于内容创作者来说，最迫切、最高频的痛点，并非颠覆一个行业，而是解决一个极其具体而无聊的需求：人们只是想在录制后，能轻松地修复或重录某一句台词。这个发现成了公司的转折点。他们果断地从宏伟蓝图转向了解决这个微小但真实的痛点，并因此赢得了第一批忠实用户和现金流，为后续发展奠定了基础。这背后是一种深刻的产品哲学：伟大的创新，往往始于解决一个具体而高频的麻烦，而不是一开始就去追逐一个遥远的星辰大海。这种务实的思考，也贯穿在他给普通创业者的建议中。当被问及普通人如何利用 AI 月入一万美元时，他的回答不是去开发什么新算法，而是建议大家：拿着现成的语音代理方案，去本地的牙医诊所，帮助他们实现预约自动化。这个建议之所以深刻，是因为它点破了一个被大多数人忽视的真相：在技术圈被视为常识的工具，对于圈外的广大传统行业来说，依然是遥不可及的未来科技。Mati 强调，这些诊所的老板们根本不知道这已经成为可能，而部署这些方案你甚至不需要成为一个程序员。当前 AI 领域最大的机会，或许并非创造更强的技术，而是将现有技术「翻译」和「部署」到真实世界的商业场景中。填补技术与需求之间的认知鸿沟，就是普通人最实际的黄金机会。

#AI创业 #elevenlabs #Mati Staniszewski #语音技术 #传统行业AI赋能

6个月前

OpenAI 正式发布 Realtime API 降价20% 支持MCP、图像输入、可接入电话系统、新的语音和优化与传统方案（语音转文字 + 大模型生成文字 + 文字转语音）不同，Realtime API 直接通过一个统一模型完成语音输入-语音输出，从而减少延迟、保留语气细节，并生成更自然的对话体验。 1.模型能力的全方位提升语音质量：生成的声音更接近真人（语调、停顿、速度），并发布新声音和优化旧声音。语言能力：支持句内无缝切换语言、识别和表达非语言声音（如笑声）、跨语言准确朗读数字字母组合。智能水平：在推理能力、指令遵循精度和函数调用能力三大基准测试上，相比前代模型均有显著提升（准确率提升超10个百分点）。 2.新增关键功能与优化流程优化：支持异步函数调用，允许在后台执行长时间任务（如查数据库）时不打断前台对话。功能扩展 (MCP)：可通过 Model Context Protocol 轻松连接远程工具服务器，极大扩展了模型的能力边界。多模态输入 (图像)：除了语音和文字，现在可以输入图片让模型理解和分析。企业集成 (SIP)：支持 SIP 协议，使其能直接接入传统电话网络，用于呼叫中心等场景。部署效率 (可复用提示)：提供“模板化”的提示词管理功能，便于大规模标准化部署。

OpenAI大幅降价，o3模型API调用费用骤降80%· 6 条信息

#OpenAI #Realtime API #语音技术 #多模态输入 #企业集成

9个月前

OpenAI高级语音功能大升级！对话像真人般自然流畅，语调有起伏、节奏更真实，还自带情绪表达，从同理心到讽刺全都拿捏。语音翻译更是厉害，多轮对话无需重复指令，旅行、商务、学习全搞定。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#OpenAI #语音技术 #自然语言处理 #语音识别 #情感表达 #语音翻译 #人工智能 #技术升级

9个月前

哇，Hume 刚刚发布了 EVI 3 这个 AI 可以用你想象的任何声音说话 🤯 试试看，亲自体验：👇

#Hume #EVI3 #AI声音 #人工智能 #语音技术 #EVI3发布

10个月前

谷歌新发布的Gemini 2.5 Flash Exp Audio模型，是原生多模态模型，支持文本、图片、语音输入，支持文本、语音输出。输出的语音支持各种语气和声音，也能唱歌和RAP，虽然中文有时会有发音错误，但整体也非常不错了，ASMR的少女声音，让人感觉又恋爱了。下方视频第一段：少女ASMR 下方视频第二段：唱歌和RAP

#谷歌 #Gemini #多模态模型 #语音技术 #唱歌 #RAP #ASMR

1年前

我的零痛苦 AI 学英语技巧 #活到死学到死去年超热门的 NotebookLM、能把文章变成活灵活现的播客节目的那个，我用它表弟 Illuminate AI 学英语 Illuminate 能生成一问一答音频，适合讲解论文、分析长文章，我用它把有趣的英语长文转为 3、5 分钟的短音频，用碎片时间听它们因为我生成的都是我喜欢的、很有趣的文章，学习过程过程毫无痛苦😂，背单词、学句型、学发音…都行比如我一天生成 10 条音频、每条 5 分钟、每分钟 130 个单词…一个月我能覆盖接近 20 万的单词，以及无数短语、句子试听一下我生成的介绍 NFT 泡沫的故事，Youtube 上的原始视频有 76 分钟长，Illuminate 缩成了 6 分钟 Illuminate 的语气有随意、正式、指导、自定义几种，每天能免费生成 20 条音频

#学习技巧 #AI学习 #英语学习 #语音技术 #IlluminateAI