从Wiki Dump查找中间语言相关文章



找到Wikipedia的英语文章的完整列表,其与法语和西班牙语(如法语和西班牙语(以外的语言相关文章是一个问题,他们对此没有答案。您可以找到一些类似的问题,但是大多数问题与维基百科先前的结构有关,而其他问题则没有正确答案。

我们可以从这里下载Wikipedia英文和西班牙文章的转储文件:英语Wiki和西班牙Wiki。

有一些名为langlinks aka sitelinks in enwiki中的数据,旨在查找与语言相关的文章的目的。但是目前尚不清楚如何使用它们来查找与上峰的文章(与每个英语有关的西班牙文章(。langlinks模式就像:

CREATE TABLE `langlinks` (
  `ll_from` int(10) unsigned NOT NULL DEFAULT '0',
  `ll_lang` varbinary(20) NOT NULL DEFAULT '',
  `ll_title` varbinary(255) NOT NULL DEFAULT '',
   UNIQUE KEY `ll_from` (`ll_from`,`ll_lang`),
   KEY `ll_lang` (`ll_lang`,`ll_title`)
) ENGINE=InnoDB DEFAULT CHARSET=binary;

在英语中具有特殊的" ll_from"字段的记录与西班牙语中类似的" ll_from"字段有关的记录?如果是,为什么我在这两个langlinks文件中找不到具有类似ll_flom字段的记录?

再次,如何使用这些langlinks文件查找与语言相关的文章?我不想使用其他工具,例如Wikidata工具包。

此页面很有帮助:手册:langlinks table

字段 ll_from page_id of Refering Page。

ll_lang 目标的语言代码,在ISO 639-1标准中。

ll_title 目标的标题,包括命名空间(FullPagenamee样式(。

如在模式中所示,ll_lang和ll_title的组合是唯一的。

最新更新