Scrapy下载的是HTML模板,而不是页面源代码



我是Scrapy的新手,所以请原谅这个愚蠢的问题。

import scrapy
from bs4 import BeautifulSoup
from scrapy_proj.scrapy_proj.items import PageSourceLoc, ItemField
from scrapy.loader import ItemLoader
from scrapy.http.response import Response
from scrapy import Selector

class MySpider(scrapy.Spider):
name = 'websources'
start_urls = ["https://www.acquistinretepa.it/opencms/opencms/scheda_altri_bandi.html?idBando=b11f430208bfa91e"]
def parse(self, response: Response, **kwargs):
page_info = PageSourceLoc()
soup = BeautifulSoup(response.body, 'html.parser')
print(response.text)

当看到页面的详细信息时,我发现了与所使用的模板相关的元素,例如:

{{numeroVerdePA}}, {{numeroVerdeIM}}

这些应该用网页的当前值来填充。是不是我少了一些剪贴画?

感谢

我想明白了。当这种有线错误发生时,您只需要使用Selenium(https://github.com/clemfromspace/scrapy-selenium)并据此解析页面。

最新更新