时政
财经
科技
虚拟货币
其他
登录
#Karpathy
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
19小时前
结合最近强化学习之父Sutton提到LLM is a dead end和硅谷AI好老师Andrej Karpathy在访谈提到RL is terrible; 让我不禁想起在LLM的训练范式中,RL可能并不适合LLM这种纯符号计算,Sutton的担心是悬浮的符号计算会走向何方?Karpathy离职从事AI教育志向在于探索LLM的cognitive core如何为AI时代的人类所用。 LLM的"世界" = 符号空间 但符号空间是: - 自我指涉的(符号定义符号) - 无物理后果的(删除token无痛感) - 无生存压力的(错误不导致死亡) ∴ RL在此"空转": 优化的是"符号游戏的得分" 而非"在世界中生存"
#LLM
#强化学习
#Sutton
#Karpathy
#符号计算
分享
评论 0
0
sitin
4天前
前特斯拉AI总监Karpathy推出开源项目"nanochat",仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。 用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT"。 nanochat的主要功能 分词器训练:使用Rust语言实现训练分词器,负责将文本转换为符号码本序列。 预训练:在FineWeb数据集上对Transformer架构的大语言模型进行预训练,并通过CORE指标评估模型性能。 中期训练:在SmolTalk用户-助手对话数据集、多项选择题数据集、工具使用数据集上进行中期训练,使模型适应对话场景。 监督微调(SFT):在世界知识多项选择题数据集(ARC-E/C、MMLU)、数学数据集(GSM8K)、代码数据集(HumanEval)上进行监督微调,提升模型在特定任务上的表现。 强化学习微调(RL):使用“GRPO”算法在GSM8K数据集上对模型进行强化学习微调,进一步优化模型性能。 推理部署:实现高效模型推理,支持KV缓存、简易预填充/解码流程、工具使用(轻量级沙箱环境中的Python解释器),并通过CLI或类ChatGPT的WebUI与模型交互。 成绩单生成:生成单一的Markdown格式报告卡,总结整个训练推理流程,并以“游戏化”形式展示结果。 Github仓库:
前特斯拉AI总监推出100美元ChatGPT克隆项目引发热议· 3 条信息
#Karpathy
#nanochat
#开源项目
#ChatGPT复现
#AI
分享
评论 0
0
Gorden Sun
6天前
nanochat:从零实现LLM训练和推理 Andrej Karpathy开源的项目,可以认为是一个极简版ChatGPT。包含8000 行代码,4小时、100美元训练成本,即可实现训练到微调全流程。 Github: 技术报告:
#nanochat
#LLM
#ChatGPT
#Karpathy
#开源
分享
评论 0
0
0xWizard
1个月前
学习 ai 一定先看 karpathy 这个视频,讲的非常清晰,这就是真懂的人。 附了一张网友做的思维导图。 怕链接有问题的,直接去b站搜 karpathy,然后看3.5小时时长那个就是了。
#AI学习
#Karpathy
#B站
#思维导图
#推荐
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞