获得特定的“页面”来自Wikipedia XML转储



好吧,这就是我需要的:

  • 我已经下载并提取了完整的Wikipedia XML转储(> 40GB,单XML文件)
  • 我需要检索一个特定的<page>元素(例如,条目"意大利"的页面)

我该怎么做?(最好使用PHP代码或某些现有工具)

不能保证页面的完整内容将是顺序找到的,修订可能在同一文件中甚至在其他XML文件中的任何地方。

请使用或Web API的操作=在最坏的特价中导出:导出。在这里不添加链接,因为输出很大。

最新更新