存储、修改和操作网络抓取的数据



我正在开发一个从汽车广告网站中提取数据的python网络爬虫。我用 beatifoulsoup 完成了刮擦部分,但我在尝试存储和修改它时遇到了很多困难。我真的很感激关于这部分的一些建议,因为我缺乏这方面的知识。

所以这就是我想做的:

  1. 每小时抓取一次数据(完成(。
  2. 将抓取的数据作为字典存储在 .JSON 文件(已完成(。
  3. 每次在 scraped_data.json 中找不到ad_link时,都会将其设置为 dict['Status'] = 'Inactive'(完成(。
  4. 如果汽车价格发生变化,打印通知+将旧价格添加到字典中。在这一部分,我遇到了许多挑战。JSON方式。

我一直在使用 2 个 .json 文件并将它们相互比较(scraped_data_temp 、permanent_data.json(,但我认为这不是迄今为止最好的方法。

你们有什么建议?我应该怎么做?.

处理此类数据的最佳方法是什么?(也许是数据库?-没有经验,但我渴望学习(pygal,表示这种数据的好方法是什么?

谢谢。

如果你有更大的数据,我肯定会建议使用某种数据库。如果你不需要使用DB服务器,你可以使用sqlite。我过去曾使用它在本地保存更大的数据。你可以在python中使用sqlalchemy与DB-s进行交互。

至于显示数据,我倾向于使用matplotlib。它非常灵活,具有广泛的文档和示例,因此您可以将数据调整为链接,图形,图表等。

我假设你使用的是python3。

最新更新