维基百科数据提取

我正在尝试用印地语维基百科数据填充一些表。我必须用文章标题、它们的类别和相应的英语url来填充它。现在，我通过解析html文件并定位特定的div标记来查找类别和英文url。这需要很多时间。是否有任何直接有效的方法来填充类别。请告诉我。我已经从链接下载了印地语维基百科：ftp://wikipedia.c3sl.ufpr.br/wikipedia/hiwiki/20131201/

您可以使用某种解析引擎，如Wikiprep：http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/

或者，您可以使用MediaWiki引擎来处理Wiki标记语言。http://www.mediawiki.org/wiki/Manual:Importing_XML_dumps

可能还有一些其他选项与您的案例相关，您也可以在此处查看：http://en.wikipedia.org/wiki/Wikipedia:Database_download#Help_importing_dumps_into_MySQL

（我个人使用了选项#1和#2）

相关内容

最新更新

热门标签：