小贝子编程

如何使用python scrapy抓取包含#的url

本文关键字：url 包含抓取何使用 python scrapy python web-scraping scrapy fragment-identifier
更新时间 : 2023-08-24
英文 : How to scrape a url containing # using python scrapy

我使用python scrapy刮一个网站。该网页的格式为http://www.cuponation.in/myntra-coupons#voucher-13537它包含'#'。当抓取这个网页作为start_url时，它会忽略#.

后面的部分。

是否有一种方法可以使用python scrapy抓取带有#的fullurl

刮痧时，通常会忽略#之后的部分。这个符号通常会把你带到网页上的<div>标签，这个标签的id等于'voucher-13537'，这就是它的全部含义。因此，一旦您抓取页面，您应该尝试寻找类似于:

的内容:

<div id="voucher-13537">

，这就是你要找的。

谈论解析html文件，如果你还没有使用它，我建议你看看BeautifulSoup4模块。

最新更新

左连接返回的行数少于左表上的select * ?
"List index out of range" for Django Steam API
Java正则表达式从Jasper文本字段的HTML标签中删除样式
在python中更改列表中的变量(回溯)
Laravel/PHP:条件日期过滤器
多个yaml文件在ros2启动
与来自无线电和复选框的JS一起添加两个值以获得总数
Python -仅显示4位序列的圆锥序列
在使用Zeep通过代理访问SOAP时更改服务URL
无法导入节点模块
VueJs 3 - Vuex: Uncaught TypeError: store不是函数
Textarea视觉元素?
日志记录不输出调试和信息日志
试图在R上安装地球引擎;Python =3.1不可用
如何在我的代码中添加一些项目，例如"Favorite"？
获取python中从1开始的值的特定索引
BeautifulSoup美化编码非英语(西里尔字母)字符奇怪
为什么' rev().rev() '工作，但' rev().skip(1).rev() '不工作? &
我可以在共享媒体目录DCIM或Android的下载目录下编程创建空子目录吗?
错误:太多的重新渲染.React限制了渲染的次数，以防止无限循环.带有嵌套函数的自定义钩子
(Python 3.8)如何将变量转换为没有分隔符的列表?
解决Docker层缓存在Azure Pipeline中不工作的问题
Jetpack compose:可以设置下拉菜单的高度，以显示下一个项目
如何平嵌套的可观察对象，从RXJS
为什么我的解决方案不正确的旅游切片练习?
我如何使用sbt命令，如清洁和编译在我的自定义sbtplugin
Angular语言 - 根据给定的数据自动填充嵌套表单
node-gyp configure将错误:在VisualStudioFinder中生成EPERM
Spring WebClient检索封装在results属性下的json对象
尝试设置BlazorMonaco编辑器时"ReferenceError: monaco is not defined"

如何使用python scrapy抓取包含#的url

相关内容

最新更新

热门标签：