索引维基百科的链接以制作图表



我下载了维基百科转储(这个页面上的第一个种子),并试图通过将它们存储在python字典中来索引所有链接。我将链接作为目的地列表存储在具有当前页面键的字典中。但是,当我处理转储时,我最终得到MemoryError,因此我决定为每个页面分配一个整数ID。这让我走得更远,但我仍然以MemoryError结束。我该怎么处理这件事呢?我更愿意把它们都存储在内存中。由于我的代码相当长,我把它贴在这里。

您应该开始查看数据库,以便索引您的id和相关链接。

一开始你可以试试Sqlite或者MySQL

这里是python数据库处理的起点。

我个人喜欢Postgresql与python模块psycopg2结合使用

最新更新