karminski-牙医

0 关注者

1个月前

图像本来是2D的（有横有纵），但语言模型只能处理1D序列（一个字接一个字）。传统做法是把图像暴力展平，从左上角扫到右下角，这样复杂图案空间关系全乱了。 DeepSeek-OCR-2 的做法更聪明：第一层，让视觉token用双向注意力互相"看见"，保持2D空间感知（知道谁在谁旁边）；第二层，因果流token按语义逻辑重新排序（先看标题、再看正文、表格单独处理）。两层配合，就像先画一张内容地图，再规

热门新闻