karminski-牙医 0 关注者 关注 1个月前 图像本来是2D的(有横有纵),但语言模型只能处理1D序列(一个字接一个字)。传统做法是把图像暴力展平,从左上角扫到右下角,这样复杂图案空间关系全乱了。 DeepSeek-OCR-2 的做法更聪明:第一层,让视觉token用双向注意力互相"看见",保持2D空间感知(知道谁在谁旁边);第二层,因果流token按语义逻辑重新排序(先看标题、再看正文、表格单独处理)。两层配合,就像先画一张内容地图,再规 前往原网页查看