小贝子编程

使用scratch进行爬网时处理pdf文档

本文关键字：处理 pdf 文档 scratch 使用 python python-2.7 pdf web-scraping scrapy
更新时间 : 2023-08-31
英文 : Handling pdf documents when crawling using scrapy

我想分析在使用scrapy抓取网站时遇到的PDF文档。我正在使用以下代码从PDF文档中提取HTML页面源，但它不起作用

a = response.xpath("//html").extract()

我如何从PDF文档中获取内容，并将其纳入混乱的工作流程？

Scrapy可能不是解析pdf文档的最佳工具。但是，您可以在爬网时识别此类链接，并添加处理此类文档的功能。一个解决方案是有一个解析函数来处理这种情况，并在遇到pdf页面时调用它。

正如@Morad Edwar所指出的，您可以使用
这样的库pdfqueryPDFMiner等

您可以使用这些库提取数据，并将这些数据放入项目管道中，就像通常使用scrapy一样。

最新更新

两个主类的子类构造函数
Spring GET Rest - 原因：预期在路径 $ 中查找具有属性 ['id'] 的对象，但找到 'net.minidev.json.JSONArray'
应用程序指标发生了什么，例如进程使用的CPU在刮擦间隔prometheus中没有被刮擦
每个脚本发送GDoc / GSheet
apoc.col .zip()的一些奇怪的结果
unboundfield对象不可调用
在jQuery刀片文件中使用php larval helper函数
排序颜色，似乎不明白出了什么问题
在supabase的颤振sdk中，如何使用.contains("group_members"，[my_uid])之类的东西过滤流？
为什么我无法在 AWS API Gateway 中访问我的 REST API？
Roku RAF在连续播放视频时抛出错误
JSON的树层次图从SQL Server
GWT应用程序中的POST请求
Azure管道未运行
在Mac上的VS Code中包含Boost(未找到文件)
如何使用字典分离重复值和唯一值
每个keyIsDown对应一个函数
React在获取数据后不渲染数组
c++概念和转换问题
用于持有移动注册令牌的最佳数据结构
我怎么能得到Webpack解析JSX在我的index.js?
java.lang.IllegalArgumentException: API声明必须是接口
将ENI中继附加到cloudformation中的自定义安全组
我可以使用findFiles没有脚本标签的詹金斯声明式管道?
如何使用JPQL编写带有where子句的左连接
清理sphinx-doc原型类型
如何在AWS API网关前设置AWS应用程序负载均衡器
投影矩阵与全息透镜1上的PhotoCapture不可用
不能为所有连接的客户端更改标签的内容
p2p chat on python

使用scratch进行爬网时处理pdf文档

相关内容

最新更新

热门标签：