小贝子编程

仅抓取 http 标头数据

本文关键字：数据 http 抓取 python http-headers scrapy
更新时间 : 2023-08-31
英文 : Scrapy crawl http header data only

（如何）我可以存档，scrapy只下载网站的标题数据（用于检查目的等）

我试图禁用一些下载中间件，但它似乎不起作用。

就像@alexce说的，你可以发出 HEAD 请求而不是默认的 GET：

Request(url, method="HEAD")

~~更新：如果要对start_urls使用 HEAD 请求，则需要覆盖 make_requests_from_url 方法：~~

def make_requests_from_url（self， url）：返回请求（url， method='HEAD'， dont_filter=True）

更新：make_requests_from_url在Scrapy 2.6中删除。

最新更新

正在文本文件中搜索字符串，但得到多个结果
如何在链表中使用复制赋值操作符
CycloneDX v2.1.2 -如何使用CycloneDX v2.1.2为.net框架项目生成依赖关系图
如何对一般嵌套的TypedDict进行类型注释?
Web代码只是不工作-文本不断弹出动画后
如何使用VBA根据电子邮件的主题提取Outlook电子邮件数据?
为什么 H2 不能创建此表？
按下按钮后功能并行或同时计算
Gradle无法获取Unity Mediation、Firebase和Google Play Service的依赖项.&
使用两个表在mysql数据库中按国家查找用户
如何从appsettings.json获得日期时间?
配置组到springdoc openapi
用连字符替换laravel路由URL模式中的正斜杠
获胜团队(班级)场景
可以解构来自SWR查询的结果吗?
如何添加已配置的GKE节点池访问范围
Tomcat 10.1 尝试加载自定义标记，但找不到类"javax.servlet.jsp.tagext.Tag"
如何根据RFC 3984从RTP包中提取H264视频?
getElementsByTagName递归地在具有iFrames的页面上
我的文本字段返回 null，因此不知何故该值没有从 onChanged ->变量传递
在redis中，HSET是否影响哈希上现有的TTL ?
如何获得h3标签下的特定链接?
c -当我用数组排队时重复
为我的GET API调用防止不需要的参数值，以提高安全性
我如何使用TypeScript泛型函数，可以返回对象或数组?
我正在做一个机器学习NLP项目，遇到了一个问题
更正我的批处理脚本，以便文件夹中的文件可以根据年，月和日分组
运行我的 CI 时没有这样的模块"AWSCore"，在本地很好
APPSCRIPT从Gmail中检索带有电子邮件地址的上次交互日期
Arduino cmake build system without IDE

仅抓取 http 标头数据

相关内容

最新更新

热门标签：