如何使用python scrapy抓取包含#的url



我使用python scrapy刮一个网站。该网页的格式为http://www.cuponation.in/myntra-coupons#voucher-13537它包含'#'。当抓取这个网页作为start_url时,它会忽略#.

后面的部分。

是否有一种方法可以使用python scrapy抓取带有#的fullurl

刮痧时,通常会忽略#之后的部分。这个符号通常会把你带到网页上的<div>标签,这个标签的id等于'voucher-13537',这就是它的全部含义。因此,一旦您抓取页面,您应该尝试寻找类似于:

的内容:
<div id="voucher-13537"> 

,这就是你要找的。

谈论解析html文件,如果你还没有使用它,我建议你看看BeautifulSoup4模块。

相关内容

  • 没有找到相关文章

最新更新