好吧,这就是我需要的:
- 我已经下载并提取了完整的Wikipedia XML转储(> 40GB,单XML文件)
- 我需要检索一个特定的
<page>
元素(例如,条目"意大利"的页面)
我该怎么做?(最好使用PHP代码或某些现有工具)
不能保证页面的完整内容将是顺序找到的,修订可能在同一文件中甚至在其他XML文件中的任何地方。
请使用或Web API的操作=在最坏的特价中导出:导出。在这里不添加链接,因为输出很大。