时政
财经
科技
虚拟货币
其他
登录
#elevenlabs
关注
sitin
3周前
Decart 和 ElevenLabs 联合退出唇形同步 API 让 AI 角色说话时嘴型完全同步、语气自然、有情感 低延迟 + 真唇形:ElevenLabs 负责流式输出情感语音,Decart 的 Lipsync 服务实时把每个音素映射成嘴部动画帧,边说边对齐,不再“对不上嘴”。 能被“礼貌地打断”:用户一开口,VAD(语音活动检测)触发中断信号,角色会自然停下,再接着对话,不会“自顾自说完”。 上下文一致:历史对话、语气、情绪被放在统一上下文里,声音的情感走向会影响到表情和节奏,整个人设更连贯。 谁负责啥? Decart(嘴型与表情):专门做实时唇形同步。它吃进音频流,按音素生成逐帧动画;还自带 latency buffering / 补帧 / 平滑中断,避免嘴型“跳帧”。 ElevenLabs(声音与情感):提供多语言、情感丰富的 TTS,并支持低延迟流式输出;他们的 Flash 系列模型官方文档写的是~75ms 级实时应用优化,这也是能把端到端链路拉到“毫秒级体验”的前提。 一句话:ElevenLabs 给角色“灵魂”,Decart 让角色“活起来”。
#Decart
#elevenlabs
#唇形同步 API
#AI 角色
#情感语音
分享
评论 0
0
ginobefun
1个月前
最近听了 ElevenLabs 联合创始人兼 CEO Mati Staniszewski 的一次访谈,让我对 AI 时代的创业机会有了全新的思考。Mati 来自波兰,他创业的初衷非常有趣,源于他从小就无法忍受波兰引进的外国电影——所有角色,无论男女,都由同一个声音用平淡无奇的语调配音。他最初的宏大愿景,就是用 AI 彻底改变这个糟糕的配音行业。 让我感到意外的是,他们放弃了这个性感的梦想,并因此获得了成功。当他们带着初步的配音产品去接触潜在用户时,得到的反馈出奇地一致。一位用户告诉他:“你的想法很有趣,但实际上,如果你能先帮我解决自己声音的问题……那就好太多了。” 他们很快发现,对于内容创作者来说,最迫切、最高频的痛点,并非颠覆一个行业,而是解决一个极其具体而无聊的需求:人们只是想在录制后,能轻松地修复或重录某一句台词。 这个发现成了公司的转折点。他们果断地从宏伟蓝图转向了解决这个微小但真实的痛点,并因此赢得了第一批忠实用户和现金流,为后续发展奠定了基础。这背后是一种深刻的产品哲学:伟大的创新,往往始于解决一个具体而高频的麻烦,而不是一开始就去追逐一个遥远的星辰大海。 这种务实的思考,也贯穿在他给普通创业者的建议中。当被问及普通人如何利用 AI 月入一万美元时,他的回答不是去开发什么新算法,而是建议大家:拿着现成的语音代理方案,去本地的牙医诊所,帮助他们实现预约自动化。 这个建议之所以深刻,是因为它点破了一个被大多数人忽视的真相:在技术圈被视为常识的工具,对于圈外的广大传统行业来说,依然是遥不可及的未来科技。Mati 强调,这些诊所的老板们根本不知道这已经成为可能,而部署这些方案你甚至不需要成为一个程序员。当前 AI 领域最大的机会,或许并非创造更强的技术,而是将现有技术「翻译」和「部署」到真实世界的商业场景中。填补技术与需求之间的认知鸿沟,就是普通人最实际的黄金机会。
#AI创业
#elevenlabs
#Mati Staniszewski
#语音技术
#传统行业AI赋能
分享
评论 0
0
Guangzheng Li
1个月前
elevenlabs 刚刚开源了兼容 shadcn ui 的前端组件,有大量和音频输入输出相关的组件 看了一下质量都挺高的,不只是样式,有的交互逻辑都完全生产可用,有音频组件相关需求的小伙伴不要错过
#elevenlabs
#Shadcn UI
#前端组件
#音频输入输出
#开源
分享
评论 0
0
sitin
2个月前
ElevenLabs 正式发布了其新一代 AI 音效生成工具——SFX 模型 v2,并详细介绍了该模型的重大升级、广泛的应用场景以及配套的新功能。 1.新版本相比之前有显著提升,重点是: 更高质量的音效生成。 ·无缝循环:生成的音效可以完美循环播放,没有断续感。 ·更长时长:支持生成最长30秒的音效。 ·更高采样率:达到48kHz的专业音频标准。 2.广泛的应用场景:文章花了大量篇幅说明这个工具可以用于哪些领域,包括: ·音频内容创作(有声书、播客、冥想应用) ·视频与电影制作 ·游戏开发(环境音、结合MIDI实时控制) ·生产力工具(为专注应用添加背景音) 3.新功能与生态整合:发布不仅是一个模型更新,还包含了平台功能的增强: ·Studio 编辑器集成:用户可以直接在ElevenLabs的工作室中输入文字提示来生成和编辑背景音。 ·升级的音效库(SFX Library):内容更丰富,并新增了“收藏”和“Remix(再生成)”功能,方便用户管理和创意发散。 ·SB-1 音效板升级:支持新模型和MIDI设备,互动性更强。
#elevenlabs
#SFX模型v2
#AI音效生成
#音频内容创作
#Studio编辑器
分享
评论 0
0
sitin
3个月前
ElevenLabs发布了一款强大的AI音乐生成工具“Eleven Music”,它能够根据用户简单的文字描述,快速生成高度自定义、高质量、可编辑、多语言的音乐作品,适用于各种创作和商业场景。 用户只需输入简单的文本提示(Prompt),描述想要的音乐风格、情感、场景、乐器、节奏等(如“慢节奏的梦幻电子音乐,有点神秘感”或“充满活力的摇滚乐”),AI就能自动生成符合要求的高质量完整音乐作品。 支持对生成的音乐进行修改,包括编辑歌词(添加或修改)、调整声音、改变结构等。可以编辑单个段落或整首歌曲。 多语言支持,生成一首完整的音乐作品仅需几分钟,生成的音乐音质达到专业级的44.1kHz,媲美录音室制作。
#AI音乐生成
#elevenlabs
#Eleven Music
#音乐创作
#多语言支持
分享
评论 0
0
dontbesilent
3个月前
如果我把做知识库的过程中的通义听悟换成 eleven labs 把知识库的对话模型从 DeepSeek 换成 Gemini 再把这个知识库对接给小助理,替换掉我应该问题不大 知识库不好用都是 DeepSeek 和通义的锅
谷歌Deep Research:AI操作系统雏形?· 123 条信息
#知识库
#通义听悟
#elevenlabs
#DeepSeek
#Gemini
分享
评论 0
0
Gorden Sun
3个月前
跟ElevenLabs生成的对话相比,豆包播客和NotebookLM生成的音频还是太机械了。
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#elevenlabs
#豆包播客
#NotebookLM
#音频生成
#机械感
分享
评论 0
0
Gorden Sun
4个月前
ElevenLabs v3语音模型,AI语音的言出法随时刻
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#elevenlabs
#v3语音模型
#AI语音
#语音合成
#技术进展
分享
评论 0
0
歸藏(guizang.ai)
4个月前
ElevenLabs 也不甘心只搞模型了,推出了语音助手应用11 ai 支持实时用语音恢复你的问题,而且支持利用MCP获取你自己相关的信息 所以能够比其他语音助手更加了解你,比如你可以让他从Notion 读取你的文档或者日程
OpenAI新德里发布会:ChatGPT语音翻译功能引发热议· 652 条信息
#elevenlabs
#语音助手
#11 ai
#MCP
#Notion
分享
评论 0
0
LysonOber
5个月前
🚨 ElevenLabs 这个 Conversational AI 针不戳,语音对话速度超快,还能改 Prompt / 添加 RAG!刚上 v3 模型,没试过的小伙伴强烈建议去 👇 楼下注册一个,以后人人都可以有一个 24x7 解答客户问题 / 帮助销售的数字分身了,体验地址在二楼
#elevenlabs
#ConversationalAI
#语音对话
#V3模型
#数字分身
分享
评论 0
0
小互
5个月前
ElevenLabs 发布其对话语音助手: Conversational AI 2.0 相较于上一代有了巨大飞跃 亮点功能: 说话不尴尬了:它能听懂你什么时候停顿、什么时候在思考,不会中途打断你说话。 多语言切换很顺滑:你说中文,它说中文;你说西班牙语,它也能自动切换。 回答更“懂行”:它可以从你公司的知识库里直接找资料来回答你,不胡说。 批量打电话不求人:几百几千个客户,系统可以一次性给他们打电话发通知。 一个模型管两种互动方式:不用分开发文字和语音版本,省人力。
#elevenlabs
#对话语音助手
#Conversational AI
#多语言
#AI技术
#客户服务
#语音识别
分享
评论 0
0
Gorden Sun
8个月前
Mistral OCR:目前最佳OCR模型 支持多种语言,评分全面超过Gemini 2.0 Flash,支持在Le Chat使用和API调用。 调用API的话,别忘了之前ElevenLabs的大礼包,里面送25美元的Mistral API金额,免费领取地址: 在线使用: 官方介绍:
#Mistral OCR
#OCR模型
#语言支持
#API使用
#elevenlabs
#免费使用
分享
评论 0
0
Gorden Sun
8个月前
阿里开源Wan 2.1很不错,效果接近可灵1.5,需要抽卡,手部有时出问题。 在Fal上可以使用,支持图生视频、文生视频,每个视频耗费0.4美元,地址: 在ElevenLabs的免费大礼包里,可以免费领取50美元的Fal额度,可以用体验Wan 2.1和Google Veo 2。领取地址:
#阿里Wan 2.1
#图生视频
#文生视频
#Fal
#elevenlabs
分享
评论 0
0
酱紫表
10个月前
Lex Fridman 飞乌克兰采访泽连斯基了,三个小时的播客。除了感叹播客+YouTube 的影响力,AI 也发挥了极其大的作用,整个英文音频都是用 elevenlabs AI 生成的,泽连斯基不能说俄语(会但是不能说)Lex Fridman 精通俄语英语,原本的播客混杂了三种语言,用 AI 生成了3种语言的音轨供选择。
#LexFridman
#乌克兰
#泽连斯基
#播客
#YouTube
#AI
#elevenlabs
#俄语
#英语
#音频
分享
评论 0
0
Gorden Sun
2年前
用AI创作了一个儿童有声故事绘本。 故事:ChatGPT-4; 绘图提示词:ChatGPT-4; 绘图:Midjourney-v5; 朗读:elevenLabs; BGM:AIVA;
#AI创作
#儿童有声故事绘本
#ChatGPT-4
#绘图
#Midjourney-v5
#elevenlabs
#AIVA
#故事创作
#有声书
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞