时政
财经
科技
虚拟货币
其他
登录
#结构化数据
关注
karminski-牙医
2天前
给大家带来 Metal 刚刚开源的 OpenZL 解析 简单讲,这是个数据压缩框架。一提到压缩,大家都知道,压缩通常服务于要么硬盘不够大(大量数据归档),要么网速不够快(小水管只能下载压缩包然后回来解压)这两种场景 但现在已经不是拨号上网的时代了,1TB硬盘也不到100块,而现在压缩算法例如LZMA2,也已经进化到炉火纯青,给香农上坟烧过去香浓都能感动流泪的水平了。为啥还搞压缩? 答案是,这玩意是给AI准备的。在大模型训练过程中,通常用的是结构化数据,比如CSV,或者JSON等。这部分数据特征明显,而OpenZL通过内置模型能识别特征,针对每份数据专门制定压缩方案,实现比传统的压缩算法更高的压缩率,更高的解压缩速度。这个解压缩速度甚至能支撑从存储集群传输到算力集群并喂饱正在训练的显卡的水平。并且,即使不是结构化数据,也能退化为Zstd。 那么,既然这么猛,是不是压缩领域要洗牌了?并不,压缩率/压缩速度/解压缩速度正好也是个不可能三角形,OpenZL 压缩率高,解压快,那自然压缩慢咯,而且是需要学习目标数据找到特征的,因此压缩比较慢(但在结构化数据上也比Zstd快),所以很适合机器学习这种一旦数据准备好了需要反复学习基本不怎么修改的场景。 目前这个框架Meta已经投入使用了
#OpenZL
#数据压缩
#AI大模型训练
#Meta
#结构化数据
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞