#视觉文本压缩

4个月前

DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR，专注于通过光学压缩技术高效处理长文本内容。模型参数仅3B，采用混合专家架构，视觉token数量减少20倍，压缩比达20倍，20个节点每天可处理3300万页数据。在Foxbenchmark测试中，各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力，可在多轮对话中实现10倍压缩效率。 DeepSeek-OCR的主要功能 1.视觉文本压缩：将长文本内容通过视觉模态进行高效压缩，实现7-20倍的压缩比。 2.多语言OCR：支持近100种语言的文档识别，包括中文、英文、阿拉伯文、僧伽罗文等。 3.深度解析：能解析图表、化学公式、几何图形等复杂内容。 4.多格式输出：支持带布局的Markdown格式和无布局的自由OCR格式。

深度学习模型升级引发AI能力大跃进，行业迎新变革· 143 条信息

#DeepSeek-OCR #视觉文本压缩 #多语言OCR #图表解析 #3B模型