维基百科数据提取



我正在尝试用印地语维基百科数据填充一些表。我必须用文章标题、它们的类别和相应的英语url来填充它。现在,我通过解析html文件并定位特定的div标记来查找类别和英文url。这需要很多时间。是否有任何直接有效的方法来填充类别。请告诉我。我已经从链接下载了印地语维基百科:ftp://wikipedia.c3sl.ufpr.br/wikipedia/hiwiki/20131201/

您可以使用某种解析引擎,如Wikiprep:http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

或者,您可以使用MediaWiki引擎来处理Wiki标记语言。http://www.mediawiki.org/wiki/Manual:Importing_XML_dumps

可能还有一些其他选项与您的案例相关,您也可以在此处查看:http://en.wikipedia.org/wiki/Wikipedia:Database_download#Help_importing_dumps_into_MySQL

(我个人使用了选项#1和#2)

最新更新