如何抓取这个数据库站点?



我想逃离这个网站,但似乎信息不是在html代码。如何抓取这个网站/信息?

https://golden.com/query/list-of-incubator-companies-NMB3

我尝试过使用正常的html抓取,但我目前对抓取不太熟悉。

这个网站使用javascript来呈现它的内容,但是你可以使用它的api来抓取json格式的所有数据。

api端点是:

url = f"https://golden.com/api/v1/queries/list-of-incubators-and-accelerators-NMB3/results/?page={page_number}&per_page=25&order=&search="

一个简单的scrapy例子可以是这样的:

import scrapy
class MySpider(scrapy.Spider):
name = 'golden'
def start_requests(self):
for page_num in range(1,4):
url = f"https://golden.com/api/v1/queries/list-of-incubators-and-accelerators-NMB3/results/?page={page_num}&per_page=25&order=&search="
yield scrapy.Request(url)
def parse(self, response):
data = response.json()
yield {"data": data["results"]}

最新更新