我使用python scrapy刮一个网站。该网页的格式为http://www.cuponation.in/myntra-coupons#voucher-13537它包含'#'。当抓取这个网页作为start_url时,它会忽略#.
后面的部分。是否有一种方法可以使用python scrapy抓取带有#的fullurl
刮痧时,通常会忽略#
之后的部分。这个符号通常会把你带到网页上的<div>
标签,这个标签的id
等于'voucher-13537',这就是它的全部含义。因此,一旦您抓取页面,您应该尝试寻找类似于:
<div id="voucher-13537">
,这就是你要找的。
谈论解析html文件,如果你还没有使用它,我建议你看看BeautifulSoup4
模块。