#技术突破

Feiteng
2天前
和自身经历有点像,mini版 本科数学专业没怎么学过编程 研究生也是数学老板比较牛,实验室机器从2010年就高配NV GPU,硕士两年 2012-2013 猛学 机器学习、深度学习,练习 coding 实习offer mentor考完、老板还能面SVD分解,mentor和老板二人拒了他们上交学弟把位置给了我,接触开源项目 kaldi、把CNN成功运用到语音识别系统上,词错率降低10%,这段经历+复现 Hinton Dropout 论文写就硕士毕业论文 好多年后一公司产品经理离职时来跟我说:你知道知网上你硕士论文引用很高吗? 真没看过 14 年毕业,进入一家做智能音箱的公司,也有百万用户的APP,比Amazon Echo推出时间都早,无奈技术团队太菜,一套 ASR, CTO和技术骨干搞了两年也没搞出来,技术路线落后且错误;我拿kaldi 一两周就训练出能用模型,试图扭转技术路线没有成功,最后他们妥协说,我能用 java 实现一套 ASR 识别系统就采用我的方案;随后一个月学习java 用 java 写了一套 ASR 运行时,也摸透了 kaldi decoding DNN + WFST 这一套原理; 没有掰正技术路线的时候,就下定决心离开了,当时就一个想法:得去人才密度高的地方。 后面就聊了一家公司直接加入了,合伙人都是学历履历比较优秀的,电话面试官有一位是 Google 总部语音科学家背景,深入聊了 WFST,ASR 解码原理等,这是碰到行家了;约了 on site,CTO 还考八股面试题,没刷过题只给出了思路,CEO 聊的就比较宏大了; 进入后,先做了个裁剪神经网络的活;合伙人给了一个任务,提高公司核心算法的准确率,为此他们在过去一年准备了十几个benchmark,知乎还有一个热帖讨论猜测这个核心算法;最后否定了一位资深同事和合伙人的方案,提出了自己的方案,一个人执行落地上线推给千万用户,在十几个benchmark上准确率提高到了 95%,优化神经网络计算速度40倍实现在手机端离线计算,就是玩半小时就发烫;17年交接手上语音评测、语音识别工作,新开语音合成技术方向,18-20年合成水平显著高于市场商业API,公司开all hands 就会拿来一波图灵测试;公司每年hackathon必拿奖;三年后公司纽交所上市; 这些年错过的机会: 16 年看过 比特币 18年被邀请去字节组建团队,当时公司很快上市,没去 21年底看机会 MiniMax CEO CTO 约着飞来上海当面聊,过了个春节 23年初写了个开源项目 valle,后来跟大学生们面基,他们说 这是他们的语音生成大模型入门代码,有些已是头部厂商核心研发力量;minimax 同学也说无它就增加了训练数据;这个项目带来过百万收入
给你们讲一个懒猫相册开发者的故事吧 时间拉到2022年,那时候公司入职了一个小伙子 擅长写Vue和玩Linux,小伙子平时不太喜欢说话,所以第一个月就没有怎么管。那时候我们正在测试硬件模具,看了小伙子写代码能力还可以,我说开发相册App吧,然后我就去深圳了。 过了半个月回来的时候,问进度,同事说小伙子骑自行车摔了一跤,把手臂摔断了。哎呀,怎么这么不小心啊 等小伙子手好了,就继续开始写相册,第一版懒猫相册写出来的时候被我狠狠的喷了。我说用户有可能有30万张图片,你们怎么用传统的Web控件就开始写了?浏览器的原理,如果超过2000个DOM元素,像Vue和React这种响应式前端框架,光首次layout计算都需要很长时间,而且你们为了上传去重,居然每个相册都用md5计算?你们知道万一用户手里是一个红米那样的渣渣手机呢?图片还没有上传,手机的电都被你们暴力算md5算没电了 那天我这个商务真的对研发的同学好一顿教育啊,哎,教育是教育,等消了气,我又给全体前端开发做了一次前端技术培训。 培训的内容主要讲解动画的原理,怎么通过自绘、逐帧曲线变化,来欺骗用户的视觉,形成流畅的自绘控件。自绘控件的原理就是通过画布绘制,把相册这种几十万的对象的场景,从传统的DOM指数性能消耗,减少为单屏的常量绘制。因为像相册这样,你是不可能把几十万的对象都弄成DOM的,而且Vue/React这种动态属性绑定的设计,尤其耗费性能,几十万对象一上去,layout非常耗时(白屏),任何操作都会让浏览器性能榨干,甚至内存过爆卡死。而自绘控件永远都只用绘制可视范围内的对象,现代计算机绘制任何一个屏幕的内容都是非常非常快的,只用做好动画帧分解就好了。 讲完自绘后,我又讲了为了动画流畅,我们可以适当的实现双缓冲,简而言之,就是你的绘制对象要超过用户的屏幕,这样当用户滚动的时候,屏幕外的内容已经准备好了,就不用每次滚动都需要重新绘制,减少因现绘制导致的屏幕反复闪烁。 为了让同学们听懂,我在白板上用画静态图片的方式一帧一帧的讲解,画了整整两白板,甚至还表演起来了动画的变化。 当时下课的时候,我问同学们听懂了没?大家似懂非懂的点点头。我讲完又去深圳整硬件了,因为快过年了,要赶进度,出差路上我还在想,虽然自绘控件可以解决任何超多对象的图形App性能问题,但是真的要做到极限性能,需要对图形绘制的原理、坐标的计算还有数据结构的设计都要想的非常清晰才行,要不很容易写出意大利面条的代码,无法维护。当时我还在整硬件,就那么想了想,没有对小伙子能够实现自绘抱有希望。 春节后上班第一天,相册1.0就写出来了,我当时听了非常震惊,我说怎么做到的?同事说,相册的小伙子春节一天都没回家,就在武汉吃泡面,吃了20天,一个人从零写了相册的自绘控件。 我靠,他居然没回家啊? 我用了一下新版相册,非常惊喜,看来小伙子完全懂了。新版的相册利用了自绘和双缓冲,实现30万张照片任意拖拽,0.5秒内把家中照片全部绘制到用户的手机上,使用体验非常棒,我们应该是5G云相册里面缩略图显示最快的厂商了,这完全归功于懒猫相册的开发者,从零撸的自绘控件。 你们看,一个应届毕业生,只要又决心,用心学习,死磕就可以快速成长为技术大牛! 好了,今天的故事就讲到这里了,喜欢我们创业故事的朋友,欢迎点赞、收藏、转发 喜欢我们产品的老板,欢迎购买懒猫微服,评论区打1有优惠!
Y11
1个月前
韩国企业的发展历程,为后发国家追赶先进水平提供了一个值得研究的样本。 从全球产业竞争的规律来看,一个国家的产业要实现从跟跑到并跑再到领跑,往往需要经历长期的积累期,期间必然要忍受产品竞争力不足的阶段,最终依靠持续的资本投入突破技术壁垒。 这一过程中,资金的稳定供给是关键支撑。 韩国的经验中,“国家公司”这一发展思路起到了重要作用。上世纪六七十年代,韩国政府通过赋予三星、现代、LG等企业特殊的经营权限,包括政策倾斜、资源调配等,帮助它们突破了初期的资本瓶颈,得以在技术密集、投资周期长的领域持续投入,逐步具备了参与全球高端市场竞争的能力。 这种模式的核心在于,通过集中资源培育少数具备潜力的龙头企业,使其能够在特定领域建立技术优势,进而形成规模效应和品牌影响力。 当这些企业发展成为全球寡头后,又能凭借市场地位获得超额利润,再反哺技术研发和产业链整合,形成良性循环。如今,韩国在半导体、显示面板等技术壁垒极高的产业中占据全球领先地位,在汽车、造船等领域也保持着强大的竞争力,正是这一发展路径的体现。 观察不同国家的经济发展模式,大致可分为几种类型:一类是像朝鲜那样的强政府主导型,经济活动几乎由国有企业包揽;另一类是部分欧美和拉美国家的弱干预型,市场在资源配置中起决定性作用,民营企业主导关键领域;而韩国模式则属于“中度干预”,其特点是政府通过金融管控、政策规划和资源倾斜,引导产业向特定方向发展。这种“有形的手”与市场机制的结合,为韩国产业升级提供了稳定的政策环境和资源支持。 对于企业和产业发展而言,长期投入与战略耐心至关重要。无论是马云创立阿里巴巴,还是张一鸣创建字节跳动,其成功都离不开对核心技术的持续投入和对市场趋势的深刻洞察。企业要在激烈的全球竞争中立足,需要具备长远眼光,敢于在不确定中押注未来,同时也需要政策环境的稳定与支持。韩国的经验表明,在产业升级的关键阶段,政府与市场的良性互动,能够为创新提供强大动力。
Y11
1个月前
Sebastian博士在东京大学Taku Komura教授团队读博期间,连续五年每年在SIGGRAPH发表论文,最终搭建出接近商业化的角色控制系统,GitHub上的AI4Animation项目收获7.4k星标,最后一篇《DeepPhase》更是拿下SIGGRAPH最佳论文,这份坚持和成果令人敬佩。 他的研究轨迹清晰可见:从早期的周期性运动控制,到复杂运动组合,再到非周期动态控制,一步步攻克行业难题,实现技术突破。 深入分析他的研究风格,有三点特别值得借鉴: 一是目标明确且长期聚焦,始终围绕“角色控制”这一核心问题深耕,不被短期热点分散精力; 二是精准定位高价值问题,总能捕捉到行业最迫切的需求,而不是选择容易发论文但价值有限的课题; 三是敢于挑战“无答案”的难题,面对角色动作复杂性这一行业痛点,他没有停留在师兄Daniel Holden的PFNN基础上,而是通过Local Motion Phase、DeepPhase等系列研究不断突破,这种“啃硬骨头”的精神正是推动技术进步的关键。 当然,技术能力是他成功的基础。 从运动捕捉到深度学习,从工程实现到Unity引擎应用,他构建了全面的技术知识体系,并且总能敏锐地引入前沿方法,比如在DeepPhase中探索表示学习在动作中的应用,这种对新技术的开放态度,让他的研究始终站在行业前沿。 如果能像Sebastian这样专注一个方向,或许能更早形成自己的技术标签。 更重要的是,我们很容易被“好发论文”的课题吸引,而忽略真正有价值的问题。 真正有价值的研究应该像Sebastian那样,瞄准行业“卡脖子”的难题,比如动态人体渲染质量的瓶颈,而不是满足于表面的技术改进。 还有一点是技术视野的局限。有些同学固守传统方法,对Transformer、扩散模型等新技术持怀疑态度,甚至拒绝尝试,这其实是在浪费可能带来突破的机会。 Sebastian的经历告诉我们,真正的科研突破来自于对核心问题的执着、对技术前沿的敏感和对产业需求的洞察。 希望我们都能以他为榜样,把精力放在有价值的问题上,保持对新技术的好奇心,在自己的领域里深耕细作,真正做出能推动行业进步的研究。