#低延迟

4个月前

在国内访问 11labs 的 asr 延迟确实很优秀，尾包延迟只有 300ms，支持语种也很多，11labs 估计能在 asr 领域复刻他们在 tts 领域的优势。

#11Labs #ASR #语音识别 #低延迟 #多语种支持

小白怎么翻墙

4个月前

🎮【游戏加速】玩外服游戏，VPS自建是最优解！ RackNerd游戏专用： 🎯 延迟低至30ms 🎯 UDP转发完美支持 🎯 独立IP不封号 🎯 $10.98/年/年比游戏加速器便宜10倍！

#游戏加速 #外服游戏 #VPS自建 #RackNerd #低延迟

4个月前

⚡ 超高速IPLC专线日本运营6年 | 业界领先速度专线直连 | 延迟低至20ms 🎯 为什么选择我们？ • 企业级IPLC专线 • 7×24小时技术支持 • 全球优质节点覆盖 🔗 注册链接：

日本IPLC专线技术引领全球VPN市场，安全与速度并重· 15 条信息

#IPLC专线 #日本运营 #低延迟 #企业级 #技术支持

5个月前

美团刚刚开源了一款低延迟全模态大模型：LongCat-Flash-Omni，128K上下文+支持超8分钟实时音视频交互能听能看能说，毫秒级延迟，可以拿来搭建实时语音助手、直播弹幕机器人、音视频质检等在OmniBench上超Gemini-2.5-Flash、Qwen3-Omni，接近Gemini 2.5 Pro；在MMBench与Gemini、GPT-4o、Qwen-VL相当；MVBench上超Gemini 2.5 Pro和 GPT-4o 通用知识接近DeepSeek V3.1、Qwen3等总参数560B，激活27B，基于其LongCat-Flash的ScMoE 架构 #大模型 #LongCatFlashOmni

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#美团 #LongCat-Flash-Omni #开源 #大模型 #多模态 #低延迟

5个月前

⚡ 超高速IPLC专线日本运营6年 | 业界领先速度专线直连 | 延迟低至20ms 🎯 为什么选择我们？ • 企业级IPLC专线 • 7×24小时技术支持 • 全球优质节点覆盖 🔗 注册链接：

日本IPLC专线技术引领全球VPN市场，安全与速度并重· 15 条信息

#IPLC专线 #日本运营 #超高速 #低延迟 #企业级

5个月前

卧槽！程序员兄弟们快看！Cartesia 刚出的 Sonic - 3 语音 AI，实测真的猛到超出预期！咱搞开发的都懂，之前用的语音模型要么延迟高得让人抓狂，要么适配起来麻烦得要死。但这 Sonic - 3 不一样，放弃传统 Transformer 用了 SSM 架构，延迟直接压到 100ms 以内，实时交互终于不卡了，响应速度比我之前用过的所有 TTS 都快至少 4 倍，开发效率直接拉满！而且这玩意儿支持 40 多种语言，还能智能读缩写，完全不用额外做适配工作，省下来的时间多写几行代码不香吗？想搞语音克隆？10 秒就能生成专属语音，企业版还能精细调音色，满足各种定制需求。而且它刚融了 1 亿美金，后续迭代肯定也稳得一批。有需要的兄弟们可以试试！

#语音AI #Sonic-3 #SSM架构 #低延迟 #语音克隆

5个月前

刚入手懒猫，就是奔着这个去的，技术大佬打造的产品果然没让我失望，不同运营商都没有公网IP的两个终端，打洞成功后延迟干到10ms左右，跨系统远程桌面几乎感觉不到延迟，而且太省心了，完全傻瓜式配置，免折腾，支持各种平台，有远程桌面需求的强烈安利👍🏻。

懒猫家族新成员亮相，AI算力舱引发热议！· 143 条信息

#懒猫 #远程桌面 #低延迟 #免配置 #技术大佬

5个月前

Qwen3 Guard 模型引入了一个一直很期待的能力：流式输入。大模型大都支持了流式输出，但支持流式输入的模型还是第一个，如果大模型能支持流式输入，对很多低延迟的场景非常友好。阿里的伙伴还在计划给vLLM 以及 sglang支持流式输入的能力，非常期待。

#Qwen3 #Guard模型 #流式输入 #低延迟 #vLLM

7个月前

🌍 专线直连 · 不走公共路线 VilaVPN 使用企业级 IEPL / IPLC 专线告别传统公共VPN，带来真正低延迟、零丢包体验！

#VilaVPN #IEPL/IPLC专线 #低延迟 #零丢包 #网络加速

7个月前

Starlink的Standby Mode还是挺逆天的啊，一个月5美刀/7加刀就可以在任何角落有一个500kbps的低延迟线路

#Starlink #Standby Mode #低延迟 #5美刀/月 #网络服务

7个月前

🌍 专线直连 · 不走公共路线 VilaVPN 使用企业级 IEPL / IPLC 专线告别传统公共VPN，带来真正低延迟、零丢包体验！ 🧠 为谁而生？ 📺 超清流媒体（YouTube、Netflix 极速播放） 🛒 海外电商（Shopify、Amazon 稳定操作） 🖥️ 外贸办公（Gmail、WhatsApp 流畅无阻） 🚀 即刻连接全球专线 👇

#日本VilaVPN引领全球VPN市场，隐私安全成焦点· 25 条信息

#专线VPN #IEPL专线 #低延迟 #超清流媒体 #外贸办公

7个月前

已经把 gpt-oss-20B 放到 TEN Framework 的 Huggingface Space 里面了，效果非常不错。体感延迟能达到 ~1000ms，看了 log，全链路下来差不多～1300ms，比 OpenAI Realtime API 还快，非常不错了。

#GPT-OSS-20B #TEN Framework #Huggingface Space #低延迟 #AI模型

8个月前

字节推出中英同传新模型：模拟音色延迟近专业同传译员水平该模型实现了平均2-3秒的语音到语音延迟，具备实时模仿不同说话人音色以保留身份特征的能力，并支持对上下文、文化背景及包括绕口令、诗词、美食文化在内的复杂表达的理解与互译。

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#字节 #中英同传 #AI模型 #语音翻译 #低延迟

8个月前

AI实时语音专家 leeo xiang 老师，开源新项目BlastOff，用小模型先回复，然后大模型续上，实现了毫秒级即时响应，LLM 首句延迟可以大幅降低到100ms级别。 Github：当< 200ms响应，就能感觉像真人对话。在设备端实现高速响应，降低云端延迟！在AI语音应用搞起来！

#AI语音 #实时语音 #LLM #低延迟 #BlastOff

8个月前

首个直播扩散 (LSD) AI 模型 MirageLSD 发布输入任何视频流，从相机或视频聊天到计算机屏幕或游戏并实时将其转换为您想要的任何世界 < 40ms 延迟互动式游戏和视频的时代要来了。游戏和视频的界限也越来越模糊了。

#AI模型 #直播扩散 #实时转换 #低延迟 #互动游戏

歸藏(guizang.ai)

8个月前

相较于 Open AI 的 Agent 模式，我觉得昨晚最重要的发布是这个 DecartAI 发布了 MirageLSD：世界上首个实时直播视频模型，可以将摄像头的画面实时转换为其他风格和内容的视频。延迟只有 40 毫秒，而且支持无限长度视频生成！

#DecartAI #MirageLSD #实时视频模型 #视频生成 #低延迟

8个月前

kyutai_labs把它的TTS开源了：Kyutai TTS，支持文本流式传输、低延迟使用L40S GPU，同时处理32个请求，延迟为 350毫秒除了生成音频，Kyutai TTS 还会输出单词的确切时间戳英语和法语的WER分别为2.82和3.29，说话者相似度为77.1%和78.7% 能处理长文章，目前支持英语和法语 #TTS #KyutaiTTS

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Kyutai TTS #开源 #文本流式传输 #低延迟 #英语和法语

9个月前

Kyutai STT ——实时语音转文字（speech-to-text）场景优化的开源模型，主要特点是低延迟、高准确率、强并发处理能力。内置语义语音活动检测模块，能智能判断用户是否说完话，提升对话自然度。而且支持多平台实现，包括 PyTorch、Rust 和 MLX，非常适合各种应用场景。#语音识别 #人工智能

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Kyutai STT #语音转文字 #开源模型 #低延迟 #人工智能

9个月前

我这边的团队长期招音频算法方向的伙伴，主要为对话式TTS方向。重点突破的方向有三个： 1、延迟，推理延迟足够低(150ms内)； 2、音色创作成本尽可能低； 3、拟人 & 口语化。工作地点为北京和深圳，想探索对话式TTS方向的欢迎骚扰我。

#音频算法 #对话式TTS #低延迟 #音色创作 #拟人化 #招聘 #北京 #深圳