3小时前

我觉得这一段(3:28左右讲贾樟柯的长镜头开始15分钟)讲Cambrian-S论文(),的才是这7个小时访谈的精华。对CV确实saining xie有自己独到的理解。 语言是L0,多模态是L1,video streaming是L2。背后是vision的多层次表征hierarchical representation。 CV还是在感知层,这是何凯明谢赛宁们对AI的切入点。 Ilya们切入了数字神经