我正在寻找一种解析维基百科转储并检索每个页面中找到的超链接的方法。我的主要目标是创建一个有向图,说明从一个维基百科页面到另一个页面的可能路径。
例如:"狗"的页面定义有一个指向"犬狼疮"的链接。所以我会有一个狗>犬狼疮作为输出。
PS:如果有的话,我更喜欢python库。
最简单的方法是使用已经包含有关页面之间链接信息的转储:pagelinks.sql。要使用它,您需要将其导入MySQL数据库,然后您可以从任何语言访问该数据库。要理解该转储中的数据,您还需要导入 page.sql。
既然你正在尝试处理图论,你需要两件事——
- 图表制作
- 图的实现和存储
生产
也许你会尝试使用来自维基媒体的XML转储,以达到你的目的。
我建议最好的解决方案是使用某种解析脚本从文档中提取链接。
实现
要存储巨大的图形,您必须将脚本的输出存储在某种图形数据库中。在这里查看一些流行的。
因此,该过程很简单。脚本将逐个分析文档,并将结果存储在图形数据库中,供以后使用。