存储、修改和操作网络抓取的数据

我正在开发一个从汽车广告网站中提取数据的python网络爬虫。我用 beatifoulsoup 完成了刮擦部分，但我在尝试存储和修改它时遇到了很多困难。我真的很感激关于这部分的一些建议，因为我缺乏这方面的知识。

所以这就是我想做的：

我一直在使用 2 个 .json 文件并将它们相互比较(scraped_data_temp 、permanent_data.json(，但我认为这不是迄今为止最好的方法。

你们有什么建议？我应该怎么做？.

处理此类数据的最佳方法是什么？(也许是数据库？-没有经验，但我渴望学习(pygal，表示这种数据的好方法是什么？

谢谢。

如果你有更大的数据，我肯定会建议使用某种数据库。如果你不需要使用DB服务器，你可以使用sqlite。我过去曾使用它在本地保存更大的数据。你可以在python中使用sqlalchemy与DB-s进行交互。

至于显示数据，我倾向于使用matplotlib。它非常灵活，具有广泛的文档和示例，因此您可以将数据调整为链接，图形，图表等。

我假设你使用的是python3。

相关内容