时政
财经
科技
虚拟货币
其他
登录
#SFT语料
关注
九原客
1天前
推荐一个LLM数据集处理、合成、过滤用的库:DataFlow。用在最近多个模型训练数据集处理过程中,最大处理100M条SFT语料。 优点是封装较少,代码简洁明了(相比于类似的其他库),可以方便复用算子和自定义算子。 缺点是预设算子有些性能上、模型上还是需要定制,好在结构简单定制很快。
#LLM
#数据集处理
#DataFlow
#模型训练
#SFT语料
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞