提供最佳可见内容提取器



所以我的应用程序需要来自给定URL的可见内容,例如文本部分,没有html,没有页眉或页脚数据。截至目前,我正在使用漂亮的汤和样管来获得相同的内容。但在极少数情况下,我没有获得足够的数据或正确的数据。所以想知道是否有其他竞争对手,编程语言不是障碍。

我建议直接xpathcss提取器进行内容提取,这两个选择器已经简单地parsel模块上实现。

对于一整套网络爬虫+内容提取器,scrapy将是我的首选。

如果您想提取以直观地选择要提取的 html 部分,我建议您portia.

希望有帮助。

相关内容

  • 没有找到相关文章

最新更新