如何使用维基下载索引文件中提供的信息?



我正在尝试使用维基数据对中国人进行一些研究。除了使用dbpedia(因为与 zh.wikipedia.org 相比,有关中国人的信息有点有限),我发现我可以直接从zhwiki http://download.wikipedia.com/zhwiki/20150301/下载。

看到有一个索引文件,从文件中我可以看到如下行:966576:291:人物

我认为哪个是查找键?有人可以告诉我如何使用此查找键搜索主文件或数据库吗?

有两个文件

  • zhwiki-20150301-pages-articles-multistream.xml.bz2 1.1 GB - 它有多个 BZ2 流,每个流 100 页
  • zhwiki-20150301-pages-articles-multistream-index.txt.bz2 18.8 MB - 索引文件

索引文件包含行

  • 偏移量 1:页面 Id1:标题 1
  • 偏移量 1:页面 Id2:标题 2
  • ..
  • 偏移量 2:页面 Id101:标题101等等。
偏移量

是 BZ2 流的起始偏移量。您需要从 bz1 文件中读取字节从 offset1 到 offset2 并将它们传递给 bz2 解码器,它会从该流中为您提供 100 页的 xml 转储

最新更新