使用scratch进行爬网时处理pdf文档



我想分析在使用scrapy抓取网站时遇到的PDF文档。我正在使用以下代码从PDF文档中提取HTML页面源,但它不起作用

a = response.xpath("//html").extract()

我如何从PDF文档中获取内容,并将其纳入混乱的工作流程?

Scrapy可能不是解析pdf文档的最佳工具。但是,您可以在爬网时识别此类链接,并添加处理此类文档的功能。一个解决方案是有一个解析函数来处理这种情况,并在遇到pdf页面时调用它。

正如@Morad Edwar所指出的,您可以使用
这样的库pdfqueryPDFMiner等

您可以使用这些库提取数据,并将这些数据放入项目管道中,就像通常使用scrapy一样。

最新更新