九原客

九原客

0 关注者

1天前

推荐一个LLM数据集处理、合成、过滤用的库:DataFlow。用在最近多个模型训练数据集处理过程中,最大处理100M条SFT语料。 优点是封装较少,代码简洁明了(相比于类似的其他库),可以方便复用算子和自定义算子。 缺点是预设算子有些性能上、模型上还是需要定制,好在结构简单定制很快。

相关新闻

placeholder

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞

11小时前

LLM的脾气 你问都问了,我怎得生成点啥吧