#李沐

5个月前

最近在 B 站又跟着李沐读了不少 AI 论文，再次推荐他的《AI 论文精读》系列，论文的结构大多八股：摘要、引言、方法、实验、结论，一板一眼。但要把这样的内容讲得清晰易懂、让人愿意听下去，其实特别难。这考验的不是文笔，而是对问题本质的洞察力。 ResNet 是图像领域的奠基之作。李沐在讲这篇论文时，对它的写作风格评价很高——全文围绕一个核心思想：Residual Learning。简单一句话：别让网络从零学起，让它只学“差的那一点”。就是这个看似朴素的想法，改变了整个深度学习的训练方式。他读论文的风格也值得学习，不啃细节，而是“扫一眼、圈重点、问问题”三步阅读，关注的不是论文细节本身，而是作者在面对问题时的思考路径。这种方式能让人更快地看透论文背后的逻辑，而不是被推导公式困住。对作者来说，把简单的东西讲简单，把复杂的东西讲简单，都需要很深的功底。而对读者，要能抓住那个最核心的问题：“这篇论文到底想解决什么？”，当懂得用这种方式去读论文时，其实也在学习如何思考、如何写作、如何提炼本质。

#李沐 #AI论文精读 #ResNet #深度学习 #思考方式

7个月前

Gemini 的威力被严重低估了。我所在的号贩子群，把价格打到 10r/m, 简直有点侮辱她最近发现 Chrome 自带顶层 Gemini 小窗口，不仅可翻译网页上任何文字，还可抓取有规律的标题，和统计数字比如，抓取李沐老师频道中的爆款视频，评论区最火的讨论。。。其他，兄弟们自己发挥吧

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#Gemini #CHROME #李沐 #AI #效率工具

8个月前

卧槽，李沐团队开源的的这个音频大模型简直了我看完这个视频，第一反应就是电影配音这个行业要被颠覆了。

#李沐 #音频大模型 #电影配音 #颠覆 #积极

8个月前

李沐的语音LLM，在文本大模型基础上加入语音输入输出，开源训练方法与权重。需要10-12 GB VRAM 没有这种模型之前，AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成，响应容易慢。而且大段文本不一定适合念出来，念出来也不一定符合“情感”

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#李沐 #语音LLM #开源 #AI语音 #AI客服