#elevenlabs

5个月前

Decart 和 ElevenLabs 联合退出唇形同步 API 让 AI 角色说话时嘴型完全同步、语气自然、有情感低延迟 + 真唇形：ElevenLabs 负责流式输出情感语音，Decart 的 Lipsync 服务实时把每个音素映射成嘴部动画帧，边说边对齐，不再“对不上嘴”。能被“礼貌地打断”：用户一开口，VAD（语音活动检测）触发中断信号，角色会自然停下，再接着对话，不会“自顾自说完”。上下文一致：历史对话、语气、情绪被放在统一上下文里，声音的情感走向会影响到表情和节奏，整个人设更连贯。谁负责啥？ Decart（嘴型与表情）：专门做实时唇形同步。它吃进音频流，按音素生成逐帧动画；还自带 latency buffering / 补帧 / 平滑中断，避免嘴型“跳帧”。 ElevenLabs（声音与情感）：提供多语言、情感丰富的 TTS，并支持低延迟流式输出；他们的 Flash 系列模型官方文档写的是~75ms 级实时应用优化，这也是能把端到端链路拉到“毫秒级体验”的前提。一句话：ElevenLabs 给角色“灵魂”，Decart 让角色“活起来”。

#Decart #elevenlabs #唇形同步 API #AI 角色 #情感语音

5个月前

最近听了 ElevenLabs 联合创始人兼 CEO Mati Staniszewski 的一次访谈，让我对 AI 时代的创业机会有了全新的思考。Mati 来自波兰，他创业的初衷非常有趣，源于他从小就无法忍受波兰引进的外国电影——所有角色，无论男女，都由同一个声音用平淡无奇的语调配音。他最初的宏大愿景，就是用 AI 彻底改变这个糟糕的配音行业。让我感到意外的是，他们放弃了这个性感的梦想，并因此获得了成功。当他们带着初步的配音产品去接触潜在用户时，得到的反馈出奇地一致。一位用户告诉他：“你的想法很有趣，但实际上，如果你能先帮我解决自己声音的问题……那就好太多了。” 他们很快发现，对于内容创作者来说，最迫切、最高频的痛点，并非颠覆一个行业，而是解决一个极其具体而无聊的需求：人们只是想在录制后，能轻松地修复或重录某一句台词。这个发现成了公司的转折点。他们果断地从宏伟蓝图转向了解决这个微小但真实的痛点，并因此赢得了第一批忠实用户和现金流，为后续发展奠定了基础。这背后是一种深刻的产品哲学：伟大的创新，往往始于解决一个具体而高频的麻烦，而不是一开始就去追逐一个遥远的星辰大海。这种务实的思考，也贯穿在他给普通创业者的建议中。当被问及普通人如何利用 AI 月入一万美元时，他的回答不是去开发什么新算法，而是建议大家：拿着现成的语音代理方案，去本地的牙医诊所，帮助他们实现预约自动化。这个建议之所以深刻，是因为它点破了一个被大多数人忽视的真相：在技术圈被视为常识的工具，对于圈外的广大传统行业来说，依然是遥不可及的未来科技。Mati 强调，这些诊所的老板们根本不知道这已经成为可能，而部署这些方案你甚至不需要成为一个程序员。当前 AI 领域最大的机会，或许并非创造更强的技术，而是将现有技术「翻译」和「部署」到真实世界的商业场景中。填补技术与需求之间的认知鸿沟，就是普通人最实际的黄金机会。

#AI创业 #elevenlabs #Mati Staniszewski #语音技术 #传统行业AI赋能

5个月前

elevenlabs 刚刚开源了兼容 shadcn ui 的前端组件，有大量和音频输入输出相关的组件看了一下质量都挺高的，不只是样式，有的交互逻辑都完全生产可用，有音频组件相关需求的小伙伴不要错过

#elevenlabs #Shadcn UI #前端组件 #音频输入输出 #开源

6个月前

ElevenLabs 正式发布了其新一代 AI 音效生成工具——SFX 模型 v2，并详细介绍了该模型的重大升级、广泛的应用场景以及配套的新功能。 1.新版本相比之前有显著提升，重点是：更高质量的音效生成。 ·无缝循环：生成的音效可以完美循环播放，没有断续感。 ·更长时长：支持生成最长30秒的音效。 ·更高采样率：达到48kHz的专业音频标准。 2.广泛的应用场景：文章花了大量篇幅说明这个工具可以用于哪些领域，包括： ·音频内容创作（有声书、播客、冥想应用） ·视频与电影制作 ·游戏开发（环境音、结合MIDI实时控制） ·生产力工具（为专注应用添加背景音） 3.新功能与生态整合：发布不仅是一个模型更新，还包含了平台功能的增强： ·Studio 编辑器集成：用户可以直接在ElevenLabs的工作室中输入文字提示来生成和编辑背景音。 ·升级的音效库（SFX Library）：内容更丰富，并新增了“收藏”和“Remix（再生成）”功能，方便用户管理和创意发散。 ·SB-1 音效板升级：支持新模型和MIDI设备，互动性更强。

#elevenlabs #SFX模型v2 #AI音效生成 #音频内容创作 #Studio编辑器

7个月前

ElevenLabs发布了一款强大的AI音乐生成工具“Eleven Music”，它能够根据用户简单的文字描述，快速生成高度自定义、高质量、可编辑、多语言的音乐作品，适用于各种创作和商业场景。用户只需输入简单的文本提示（Prompt），描述想要的音乐风格、情感、场景、乐器、节奏等（如“慢节奏的梦幻电子音乐，有点神秘感”或“充满活力的摇滚乐”），AI就能自动生成符合要求的高质量完整音乐作品。支持对生成的音乐进行修改，包括编辑歌词（添加或修改）、调整声音、改变结构等。可以编辑单个段落或整首歌曲。多语言支持，生成一首完整的音乐作品仅需几分钟，生成的音乐音质达到专业级的44.1kHz，媲美录音室制作。

#AI音乐生成 #elevenlabs #Eleven Music #音乐创作 #多语言支持

8个月前

如果我把做知识库的过程中的通义听悟换成 eleven labs 把知识库的对话模型从 DeepSeek 换成 Gemini 再把这个知识库对接给小助理，替换掉我应该问题不大知识库不好用都是 DeepSeek 和通义的锅

谷歌Deep Research：AI操作系统雏形？· 145 条信息

#知识库 #通义听悟 #elevenlabs #DeepSeek #Gemini

8个月前

跟ElevenLabs生成的对话相比，豆包播客和NotebookLM生成的音频还是太机械了。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#elevenlabs #豆包播客 #NotebookLM #音频生成 #机械感

8个月前

ElevenLabs v3语音模型，AI语音的言出法随时刻

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#elevenlabs #v3语音模型 #AI语音 #语音合成 #技术进展

歸藏(guizang.ai)

9个月前

ElevenLabs 也不甘心只搞模型了，推出了语音助手应用11 ai 支持实时用语音恢复你的问题，而且支持利用MCP获取你自己相关的信息所以能够比其他语音助手更加了解你，比如你可以让他从Notion 读取你的文档或者日程

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#elevenlabs #语音助手 #11 ai #MCP #Notion

9个月前

🚨 ElevenLabs 这个 Conversational AI 针不戳，语音对话速度超快，还能改 Prompt / 添加 RAG！刚上 v3 模型，没试过的小伙伴强烈建议去 👇 楼下注册一个，以后人人都可以有一个 24x7 解答客户问题 / 帮助销售的数字分身了，体验地址在二楼

#elevenlabs #ConversationalAI #语音对话 #V3模型 #数字分身

9个月前

ElevenLabs 发布其对话语音助手： Conversational AI 2.0 相较于上一代有了巨大飞跃亮点功能：说话不尴尬了：它能听懂你什么时候停顿、什么时候在思考，不会中途打断你说话。多语言切换很顺滑：你说中文，它说中文；你说西班牙语，它也能自动切换。回答更“懂行”：它可以从你公司的知识库里直接找资料来回答你，不胡说。批量打电话不求人：几百几千个客户，系统可以一次性给他们打电话发通知。一个模型管两种互动方式：不用分开发文字和语音版本，省人力。

#elevenlabs #对话语音助手 #Conversational AI #多语言 #AI技术 #客户服务 #语音识别

1年前

Mistral OCR：目前最佳OCR模型支持多种语言，评分全面超过Gemini 2.0 Flash，支持在Le Chat使用和API调用。调用API的话，别忘了之前ElevenLabs的大礼包，里面送25美元的Mistral API金额，免费领取地址：在线使用：官方介绍：

#Mistral OCR #OCR模型 #语言支持 #API使用 #elevenlabs #免费使用

1年前

阿里开源Wan 2.1很不错，效果接近可灵1.5，需要抽卡，手部有时出问题。在Fal上可以使用，支持图生视频、文生视频，每个视频耗费0.4美元，地址：在ElevenLabs的免费大礼包里，可以免费领取50美元的Fal额度，可以用体验Wan 2.1和Google Veo 2。领取地址：

#阿里Wan 2.1 #图生视频 #文生视频 #Fal #elevenlabs

1年前

Lex Fridman 飞乌克兰采访泽连斯基了，三个小时的播客。除了感叹播客+YouTube 的影响力，AI 也发挥了极其大的作用，整个英文音频都是用 elevenlabs AI 生成的，泽连斯基不能说俄语（会但是不能说）Lex Fridman 精通俄语英语，原本的播客混杂了三种语言，用 AI 生成了3种语言的音轨供选择。

#LexFridman #乌克兰 #泽连斯基 #播客 #YouTube #AI #elevenlabs #俄语 #英语 #音频

3年前

用AI创作了一个儿童有声故事绘本。故事：ChatGPT-4；绘图提示词：ChatGPT-4；绘图：Midjourney-v5；朗读：elevenLabs； BGM：AIVA；

#AI创作 #儿童有声故事绘本 #ChatGPT-4 #绘图 #Midjourney-v5 #elevenlabs #AIVA #故事创作 #有声书