从 Blablacar 网站提取 5000 个骑行详细信息



任何人都可以帮我从 blabla car 的 url 中提取骑手的详细信息,或者请提出一些关于网络潦草的想法

从 BLBLA 汽车网站的网址中提取前 5000 次骑行详细信息

我是网络潦草和蟒蛇的新手。所以好心人都给人一些提示来完成任务

首先,您应该始终思考抓取起点在哪里。 在这种情况下,https://www.blablacar.in/search-car-sharing 看起来不错,因为有指向最受欢迎路线的链接。

以下是您可能想要遵循的管道:

  • 声明一只蜘蛛。
  • USER_AGENT(settings.py(设置为自定义内容,以便不获取403响应。
  • DOWNLOAD_DELAY设置为类似0.5左右的内容,以免被禁止(可能需要使值更大(。
  • 为蜘蛛添加起点:start_urls = ['https://www.blablacar.in/search-car-sharing']
  • 添加一个将生成路由页面的请求的parse方法。
  • 添加一个parse_route方法,该方法将生成有关游乐设施的信息并遵循分页。

这就是parse方法的样子:

def parse(self, response):
for a_tag in response.css('.search-empty__meeting-points a'):
yield response.follow(a_tag, self.parse_route)

下面是parse_route解析骑行名称和日期的示例:

def parse_route(self, response):
for trip in response.css('.trip-search-results li'):
item = {}
item['name'] = trip.css('.ProfileCard-info--name::text').extract_first().strip()
item['date'] = trip.css('.description .time::attr(content)').extract_first()
yield item
for a_tag in response.css('.pagination .next:not(.disabled) a'):
yield response.follow(a_tag, self.parse_route)

希望这能让您直观地了解如何完成任务。

相关内容

最新更新