#Karpathy

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

19小时前

结合最近强化学习之父Sutton提到LLM is a dead end和硅谷AI好老师Andrej Karpathy在访谈提到RL is terrible；让我不禁想起在LLM的训练范式中，RL可能并不适合LLM这种纯符号计算，Sutton的担心是悬浮的符号计算会走向何方？Karpathy离职从事AI教育志向在于探索LLM的cognitive core如何为AI时代的人类所用。 LLM的"世界" = 符号空间但符号空间是： - 自我指涉的（符号定义符号） - 无物理后果的（删除token无痛感） - 无生存压力的（错误不导致死亡） ∴ RL在此"空转"：优化的是"符号游戏的得分" 而非"在世界中生存"

#LLM #强化学习 #Sutton #Karpathy #符号计算

4天前

前特斯拉AI总监Karpathy推出开源项目"nanochat"，仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时，星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本，就能训练出一个能写诗、回答基础问题的“小型ChatGPT"。 nanochat的主要功能分词器训练：使用Rust语言实现训练分词器，负责将文本转换为符号码本序列。预训练：在FineWeb数据集上对Transformer架构的大语言模型进行预训练，并通过CORE指标评估模型性能。中期训练：在SmolTalk用户-助手对话数据集、多项选择题数据集、工具使用数据集上进行中期训练，使模型适应对话场景。监督微调（SFT）：在世界知识多项选择题数据集（ARC-E/C、MMLU）、数学数据集（GSM8K）、代码数据集（HumanEval）上进行监督微调，提升模型在特定任务上的表现。强化学习微调（RL）：使用“GRPO”算法在GSM8K数据集上对模型进行强化学习微调，进一步优化模型性能。推理部署：实现高效模型推理，支持KV缓存、简易预填充/解码流程、工具使用（轻量级沙箱环境中的Python解释器），并通过CLI或类ChatGPT的WebUI与模型交互。成绩单生成：生成单一的Markdown格式报告卡，总结整个训练推理流程，并以“游戏化”形式展示结果。 Github仓库：

前特斯拉AI总监推出100美元ChatGPT克隆项目引发热议· 3 条信息

#Karpathy #nanochat #开源项目 #ChatGPT复现 #AI

6天前

nanochat：从零实现LLM训练和推理 Andrej Karpathy开源的项目，可以认为是一个极简版ChatGPT。包含8000 行代码，4小时、100美元训练成本，即可实现训练到微调全流程。 Github：技术报告：

#nanochat #LLM #ChatGPT #Karpathy #开源

1个月前

学习 ai 一定先看 karpathy 这个视频，讲的非常清晰，这就是真懂的人。附了一张网友做的思维导图。怕链接有问题的，直接去b站搜 karpathy，然后看3.5小时时长那个就是了。

#AI学习 #Karpathy #B站 #思维导图 #推荐