Defuddle ( ) 是一个开源的 JavaScript 库,用于提取网页的主要内容和元数据。它可以移除评论、侧边栏、页眉、页脚等无关元素,仅保留正文,并以干净的 HTML 或 Markdown 格式输出。 其主要特性包括: - 更宽松的提取策略: 与 Mozilla 的 Readability.js 相比,它倾向于保留更多可能有效的信息,避免过度删除。 - 一致的输出格式: 能够以标 - x - news.news