时政
财经
科技
虚拟货币
其他
登录
#模型进步
关注
ginobefun
1个月前
我认为这次分享最核心且反共识的观点可以归结为一句话:衡量 AI 进步的真正尺度,不是模型本身有多强大,而是我们度量它的那把“尺子”有多精准。 长期以来,社区痴迷于模型参数量、架构创新和基准测试跑分,但 OpenAI 用亲身经历告诉我们,当旧的尺子已经无法反映真实能力时,整个领域的进步方向就会变得模糊。他们发现,“模型得分已经接近 100%,然而……仍然无法完成真实世界工作”,这暴露了旧尺子的失灵。 这背后是一种回归本源的深刻思考:我们开发 AI 的最终目的是什么?答案是在真实世界中创造价值。因此,度量工具本身必须与这个最终目的对齐。GDP Eval 的诞生,以及整个 Evals 产品的推出,本质上都是在打造一把全新的、与真实经济价值直接挂钩的“尺子”。这把新尺子不仅能更准确地衡量模型的当前位置,更重要的是,它能像指南针一样,为未来模型的研发指明最有价值的方向。从这个角度看,评估体系的进化,可能比模型本身的进化更为重要,因为它定义了「进步」本身。
#AI评估体系
#GDP Eval
#OpenAI
#真实世界价值
#模型进步
分享
评论 0
0
Tigris 会讲课教授是好老师
9个月前
你以为DeepSeek的AI奇迹,只靠神秘算法? 大错特错! 真正令他们领先的秘诀,恰恰是连CEO梁文峰都亲自下场干的“脏活” —— 数据标注! 与那些轻率的 “AI玄学” 论调截然相反,DeepSeek R1的突破,根植于海量的优质人工生成和合成数据。 事实上,DeepSeek模型在开源领域,正以惊人的数据量刷新纪录: 1️⃣60万条核心推理数据 (驱动模型深度思考) 2️⃣20万条监督微调 (SFT) 数据 (提升模型指令跟随能力) 3️⃣规模惊人的RLHF人工偏好数据集 (据估计至少300-500万条样本!远超同行,塑造更符合人类价值观的AI) 4️⃣关键的CoT链式推理合成数据 (高质量“冷启动”燃料,加速模型效率飞升) 正是这史无前例的高质量数据投喂,才最终成就了DeepSeek R1在低成本下,推理能力的惊人涌现 ,开创AI新范式! 如此规模的优质合成数据,究竟从何而来? 答案或许已呼之欲出。
#DeepSeek
#AI发展
#数据标注
#AI玄学
#CEO参与
#开源领域
#人工智能
#数据量
#模型进步
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞