Daivd Yuan

Daivd Yuan

0 关注者

1天前

从技术角度分析一下马斯克这个帖子。 神经网络参数数跟他的性能是直接相关的,大语言模型也是这样。有兴趣的投资者可以试试不同大语言模型的7b, 13b, 23b, 和他们的500b参数版本,他们的表现是有断崖式的提高的。我预期10x参数版本在处理各种长尾场景上应该会有大幅提升。 特斯拉没有公开过FSD的架构,只说是端到端。但是我们可以合理推测他一样是个视觉模型首先需要做物体检测,分类,分割,距离感知。假设FSD里面用到Vision Transformer, 他首先要把摄像头拍到的图片转化成Token, 一个压缩成460解析度的视频能得到的Token数,显然比1080解析度的视频要少3/4。Transformer会把这些Token之间做运算来的得到图片中的物体。巧妇难为无米之炊,token数不够就像你给ChatGPT的提示语嫣不详,AI也没法给出准确的答案。 即使不是用Vision Transformer, 用CNN/Yolo做物体检测,图片的解析度也一样很大程度决定模型的性能。 另外,这个10x参数版本应该是HW4的极限了。不像大语言模型,FSD因为有实时性的要求,没法放在云端跑,车机硬件就是能跑多大模型的天花板。10X参数以后不可能继续加下去。 FSD吹了5/6年的牛,两个月内就要见分晓了。令人兴奋。行就是行,不行就只能等HW5了。