所以我的应用程序需要来自给定URL的可见内容,例如文本部分,没有html,没有页眉或页脚数据。截至目前,我正在使用漂亮的汤和样管来获得相同的内容。但在极少数情况下,我没有获得足够的数据或正确的数据。所以想知道是否有其他竞争对手,编程语言不是障碍。
我建议直接xpath
或css
提取器进行内容提取,这两个选择器已经简单地parsel
模块上实现。
对于一整套网络爬虫+内容提取器,scrapy
将是我的首选。
如果您想提取以直观地选择要提取的 html 部分,我建议您portia
.
希望有帮助。