时政
财经
科技
登录
#元数据
关注
ginobefun
1个月前
Defuddle ( ) 是一个开源的 JavaScript 库,用于提取网页的主要内容和元数据。它可以移除评论、侧边栏、页眉、页脚等无关元素,仅保留正文,并以干净的 HTML 或 Markdown 格式输出。 其主要特性包括: - 更宽松的提取策略: 与 Mozilla 的 Readability.js 相比,它倾向于保留更多可能有效的信息,避免过度删除。 - 一致的输出格式: 能够以标准化的格式输出内容,包括脚注、数学公式、代码块等。 - 丰富的元数据: 可以提取包括 数据在内的更多元数据。 - 利用移动端样式: 通过分析页面的移动版样式来辅助判断哪些元素是不必要的。 - 多样化的使用方式: 可以在浏览器环境和 Node.js 环境中使用。它也是 Obsidian Web Clipper 的一部分,并且可以作为书签工具 (bookmarklet) 使用。
#Defuddle
#开源库
#JavaScript
#网页提取
#元数据
#信息提取
#Readability.js
#技术工具
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞