sitin 0 关注者 关注 3天前 最近刷帖子,有刷到几个有意思的开源项目👇 LangExtract 可以把“乱文本”直接变成“可核对的数据” 很多信息抽取库的问题是:抽出来一堆 JSON,你根本不知道它从哪句来的、靠谱不靠谱。 LangExtract 最打动我的点就是“精确源定位”:每个抽取结果都能映射回原文位置,还能直接生成一个可交互的 HTML 让你在上下文里批量审核结果。 对长文档也有专门策略:chunking 前往原网页查看