Feiteng

统计数据

10

文章

0

粉丝

0

获赞

404

阅读

2个月前

写了个 Claude Code 字幕 omni-captions-skills，这样用 ❯ 帮我下载 Fireship 这个 Vibe Coding 视频，加中英双语字幕，英文绿色中文黄色，放视频上方几分钟后：1080p 视频 + 精准对齐的双语字幕，直接能用不用 Arctime 打轴，不用剪映翻译，不用学 ASS 语法安装：npx skills add 直接用 Claude 翻译，不需要额外配置 LLM 翻译

3个月前

AI 六小龙之一的 #zhipu, 开源 ASR 模型 #GLM-ASR-Nano-2512 GLM-ASR-Nano-2512 是一款强大的开源语音识别模型，拥有15 亿个参数。它专为应对真实世界的复杂性而设计，在多个基准测试中性能优于 OpenAI Whisper V3，同时保持了紧凑的体积。主要功能包括：卓越的方言支持：除了标准的普通话和英语之外，该模型还针对粤语和其他方言进行了高度优化，有效地弥合了方言语音识别方面的差距。低音量语音鲁棒性：专为“耳语/轻声细语”场景训练。它能够捕捉并准确转录传统模型经常遗漏的极低音量音频。 SOTA 性能：在同类开源模型中实现了最低的平均错误率 (4.10)，在中国基准测试 (Wenet Meeting、Aishell-1 等) 中表现出显著优势。 GitHub: HF:

4个月前

和自身经历有点像，mini版本科数学专业没怎么学过编程研究生也是数学老板比较牛，实验室机器从2010年就高配NV GPU，硕士两年 2012-2013 猛学机器学习、深度学习，练习 coding 实习offer mentor考完、老板还能面SVD分解，mentor和老板二人拒了他们上交学弟把位置给了我，接触开源项目 kaldi、把CNN成功运用到语音识别系统上，词错率降低10%，这段经历+复现 Hinton Dropout 论文写就硕士毕业论文好多年后一公司产品经理离职时来跟我说：你知道知网上你硕士论文引用很高吗？真没看过 14 年毕业，进入一家做智能音箱的公司，也有百万用户的APP，比Amazon Echo推出时间都早，无奈技术团队太菜，一套 ASR, CTO和技术骨干搞了两年也没搞出来，技术路线落后且错误；我拿kaldi 一两周就训练出能用模型，试图扭转技术路线没有成功，最后他们妥协说，我能用 java 实现一套 ASR 识别系统就采用我的方案；随后一个月学习java 用 java 写了一套 ASR 运行时，也摸透了 kaldi decoding DNN + WFST 这一套原理；没有掰正技术路线的时候，就下定决心离开了，当时就一个想法：得去人才密度高的地方。后面就聊了一家公司直接加入了，合伙人都是学历履历比较优秀的，电话面试官有一位是 Google 总部语音科学家背景，深入聊了 WFST，ASR 解码原理等，这是碰到行家了；约了 on site，CTO 还考八股面试题，没刷过题只给出了思路，CEO 聊的就比较宏大了；进入后，先做了个裁剪神经网络的活；合伙人给了一个任务，提高公司核心算法的准确率，为此他们在过去一年准备了十几个benchmark，知乎还有一个热帖讨论猜测这个核心算法；最后否定了一位资深同事和合伙人的方案，提出了自己的方案，一个人执行落地上线推给千万用户，在十几个benchmark上准确率提高到了 95%，优化神经网络计算速度40倍实现在手机端离线计算，就是玩半小时就发烫；17年交接手上语音评测、语音识别工作，新开语音合成技术方向，18-20年合成水平显著高于市场商业API，公司开all hands 就会拿来一波图灵测试；公司每年hackathon必拿奖；三年后公司纽交所上市；这些年错过的机会： 16 年看过比特币 18年被邀请去字节组建团队，当时公司很快上市，没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊，过了个春节 23年初写了个开源项目 valle，后来跟大学生们面基，他们说这是他们的语音生成大模型入门代码，有些已是头部厂商核心研发力量；minimax 同学也说无它就增加了训练数据；这个项目带来过百万收入

#数学转行 #语音识别 #深度学习 #kaldi #技术突破 #职场发展 #AI #成功案例

5个月前

Soul 开源了一款支持多人对话的播客生成模型，训练数据 130万小时，支持中文英文以及多个中文方言和副语言（笑、叹气等）代码：模型HF：

#soul #播客生成模型 #多人对话 #中文英文 #开源

5个月前

#LattifAI - 由尖端 AI 驱动的音频字幕同步工具 🚀 免费使用 ✨ 核心功能： • 精确的强制对齐引擎（支持任何音频格式） • 基于标点符号语义的智能分句 • 支持 SRT、VTT、ASS 和 TXT 格式 • 针对 CPU、GPU (CUDA) 和苹果芯片 (MPS) 优化 💻 🤗 #AI #音频处理 #字幕 #强制对齐

#LattifAI #AI音频字幕工具 #免费使用 #音频处理 #强制对齐

5个月前

赶工音频文本对齐 python sdk，争取今天赶完发出来

#赶工 #音频文本对齐 #python sdk #今天 #完成

6个月前

Gemini 2.5 Pro 音频转文字准确率超高，时间轴的准确性就只有个大概了。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini 2.5 Pro #音频转文字 #准确率高 #时间轴 #技术

6个月前

One Framework, Two Modes 🎬 万动画（Wan-Animate）是角色动画的变革者！它在一个框架内统一了“动画”（通过参考视频将静止图像变为动态）和“替换”（在视频中用新身份替换角色）功能。高保真运动、表情以及环境感知照明！即将开源。项目地址： #AIArt #扩散模型（DiffusionModels）

阿里开源Wan-Animate，角色动画与替换技术引发热议· 10 条信息

#万动画 #角色动画 #AIArt #扩散模型 #开源

8个月前

Wan2.2 开放了 27B参数MoE激活14B 和 5B 两个模型版本，5B 版本既有效果又对24G显存消费端显卡友好！ hf: github:

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#wan2.2 #MoE #27B参数 #14B模型 #5B模型 #24G显存

9个月前

Gemini 2.5 技术报告：原生的 Audio Input Output Streaming 能力

#Gemini #技术报告 #Audio Input Output #流媒体 #音频输入输出 #技术能力