如何请求网页的一部分抓取(python)



我对网络抓取有点陌生,我的问题可能有点愚蠢。我想从租赁网站获取信息。我想每天抓取近 2000 页来获取信息。但我不想锤击他们的网站。我只需要特定标签(即表(内的信息。有没有办法只请求页面的那部分而不是获取整个页面?

我肯定会在脚本中添加延迟和睡眠,但减小文件大小也会有所帮助。 实现它将请求的文件大小从大约 300kB 减少到 11kB。

网站网址: https://asunnot.oikotie.fi/vuokrattavat-asunnot

网页示例:https://asunnot.oikotie.fi/vuokrattavat-asunnot/imatra/15733776

必填标签:<div class="listing-details-container">...</div>

提前感谢您的回复:)

我认为每天 2000 并不高 - 取决于你什么时候这样做。 如果您在每个请求之间放置 10 秒的等待时间,则不应使其过载 - 但需要 6 小时。 最好在现场应该更安静的时候过夜。 如果你不等待地做2000,网站所有者可能会不高兴。

最新更新