时政

财经

科技

#Kimi

張小珺 Xiaojùn

2025-02-25 22:54:56

长篇技术科普第三篇，关于注意力机制。上周DeepSeek和Kimi发布了最新研究工作，我们对DeepSeek NSA、Kimi MoBA、MiniMax-01，最近的3篇注意力机制论文逐篇精读。（嘉宾松琳在MIT做注意力机制研究方向）——希望和你一起领略科技平权，感受技术之美，也希望我们能与AI共同进步🤩

#技术科普 #注意力机制 #AI

2025-01-24 19:06:53

一年前，也是在春节期间，OpenAI突然发布了断档领先的视频大模型Sora，给国产AI厂商添了大堵，被调侃为都过不好年了。一年后的这次临近春节，轮到中国AI厂商给美国竞对们上眼药了，Qwen、DeepSeek、Kimi、Doubao连着发大招，你方唱罢我登场，实在热闹。因为别人太强而过不好年，和因为自个忙起来根本就没想过好年，是完全不同的两码事。字节跳动新发布的豆包1.5 Pro，除了

#OpenAI #视频大模型Sora #国产AI厂商

2025-01-22 23:45:13

最近牛逼的模型都用到了这个论文提到的类似技术，从kimi k1.5到deepseek r1，到谷歌最新的flash thinking 实验版 01-21。看来这篇论文要成为AI必读了，Mark下，明天就学。

#AI技术 #Kimi #DeepSeek

2025-01-22 21:22:29

Kimi和DeepSeek的新模型这几天内同时发布，又是一波让人看不懂的突飞猛进，硅谷的反应也很有意思，已经不再是惊讶「他们是怎么办到的」，而是变成了「他们是怎么能这么快的」，就快走完了质疑、理解、成为的三段论。先说背景。大模型在运作上可用粗略分为训练和推理两大部分，在去年9月之前，训练的质量一直被视为重中之重，也就是通过所谓的算力堆叠，搭建万卡集群甚至十万卡集群来让大模型充分学习人类语料，
#Kimi #DeepSeek #新模型

2025-01-16 16:52:56

Minimax的模型我原本以为只是一个就很随大流的模型。但实际测试发现在长文本输出层面有点惊艳。具体可以下载海螺AI，随便找一篇长的英文论文，让他逐字翻译并输出为Markdown格式。Kimi 会拒绝翻译长论文，但是Minimax的模型可以持续输出很久（实测输出1w tokens还不停）同时还可以输出论文插图。

#Minimax模型 #长文本输出 #海螺AI

2024-12-27 05:09:59

DeepSeek好强哇，互联网搜索功能准确，而且快速，一点都不差 poe 和 kimi 啊。
#DeepSeek #搜索功能 #互联网

没有更多了 🤐