时政
财经
科技
虚拟货币
其他
登录
#视觉文本压缩
关注
sitin
4天前
DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR,专注于通过光学压缩技术高效处理长文本内容。 模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。 在Foxbenchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。 DeepSeek-OCR的主要功能 1.视觉文本压缩:将长文本内容通过视觉模态进行高效压缩,实现7-20倍的压缩比。 2.多语言OCR:支持近100种语言的文档识别,包括中文、英文、阿拉伯文、僧伽罗文等。 3.深度解析:能解析图表、化学公式、几何图形等复杂内容。 4.多格式输出:支持带布局的Markdown格式和无布局的自由OCR格式。
深度学习模型升级引发AI能力大跃进,行业迎新变革· 121 条信息
#DeepSeek-OCR
#视觉文本压缩
#多语言OCR
#图表解析
#3B模型
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞