九原客 0 关注者 关注 1天前 推荐一个LLM数据集处理、合成、过滤用的库:DataFlow。用在最近多个模型训练数据集处理过程中,最大处理100M条SFT语料。 优点是封装较少,代码简洁明了(相比于类似的其他库),可以方便复用算子和自定义算子。 缺点是预设算子有些性能上、模型上还是需要定制,好在结构简单定制很快。 #LLM #数据集处理 #DataFlow #模型训练 #SFT语料 前往原网页查看