𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞 0 关注者 关注 1周前 也许latent space用diffusion,decode输出用Auto-regression转换成人类能理解的词序列才是多模态大模型的正确方法 前往原网页查看